自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 互相关注(共同好友)怎么计算? (2)

第二种方法使用了子查询并且利用了标记,大数据的情况下查询效率更加好。第一种方法更加简便理解成本更低。

2024-07-25 15:50:44 186

原创 刷题回顾:Leetcode17 电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。给出数字到字母的如下(与电话按键相同)。注意 1 不对应任何字母。

2024-07-25 10:32:43 294

原创 大数据之路精读:OneData实施工作流流程总结

其中又分为业务调研和需求调研。在业务调研中,首先要理清楚数据仓库覆盖的业务领域都有哪些,覆盖的业务线又有哪些,每一条业务线中有哪些业务模块,每个业务模块有哪些业务流程又是怎么样的。同时我们要从需求出发,要搞清楚业务或者数据分析那边需要什么,知道他们的需求通常是什么,我们才能建设好我们的数据仓库。书中是这样举例子的:数据分析师想要一个指标:淘宝一级类目商品的成交金额。根据什么(维度)进行数据汇总,以及汇总什么东西(度量),这里的一级类目就是维度,金额就是度量。

2024-07-23 17:29:47 257

原创 留存率怎么计算?

首先,先要明白留存率是什么,百度的解释是:其具体含义为在统计周期(周/月)内,每日活跃用户数在第N日仍启动该App的用户数占比的平均值,其实简单点来说,拿次留率来举例子的话就是今天这批在线的用户数量作为分母,明天这批用户仍在线的用户数量作为分子。从留存率的定义入手,我们可以知道这个指标的计算肯定是涉及到今天与其他天(比如明天)的数据之间的关系的,是否就意味着对表进行自连接之后,可以得到相应的数据帮助我们计算留存率指标呢?留存率的计算是数据开发工作中常见中常见的字段需求,同时也是面试sql题考察的重中之重。

2024-07-23 16:17:50 201

原创 刷题回顾:Leetcode15 三数之和

给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i!= k ,同时还满足 nums[i] + nums[j] + nums[k] == 0。这题其实只要厘清是相向双指针知识点的话,难度就会骤降(双指针多画图,多多在脑海里面模拟)。不同的三元组是 [-1,0,1] 和 [-1,-1,2]。输入:nums = [-1,0,1,2,-1,-4]输出:[[-1,-1,2],[-1,0,1]]注意,输出的顺序和三元组的顺序并不重要。

2024-07-23 14:54:51 274

原创 刷题回顾:Leetcode6 Z字形变换

首先观察题目,与其说他是Z字形变化不如说是N字形变换(题目纯纯唬人),具体可以看看实例2的解释是怎么解释的,可以自己脑海中模拟一下。理解怎么模拟的话,这题就比较好解决了,首先设置flag,对移动方向打个标,没当移动方向发生改变的时候就把flag值改变一下。给定一个字符串s,根据给定的行数numsRows,以从上往下,从左到右进行Z字形排列。get得到list的下标(位置)然后append具体的字符进去。思路并不难,但是里面涉及的操作对我来说有点陌生。flag打标的巧妙运用。

2024-07-22 16:38:03 345

原创 Hive中位数到底是怎么求的?

常规不用hive的解决方法是:首先添加两列字段,这两列分别是score所在的位置、总数据个数。这里的逻辑筛选后,可以得到得到一行数据和两行数据(分别对应奇数和偶数,如果是偶数的话,你这样+2然后除2得到是个带小数点的数值,筛选就找不到她了),然后用对筛选出来的数据进行一个avg( )就可以了。这一个函数则是得到近似分布的值,相对没那么精确,但是他比较适合大规模数据集,数据仓库ETL中可能用它更加合适。实习过程中,接到一个需求,里面有个要计算中位数的字段,之前没见过,遂记录。一切的一切数据先排序。

2024-07-18 18:57:57 191

原创 刷题回顾:Leetcode5最长回文子串

我们确定一个区间,然后这个区间不断向外扩充,并在这个扩充过程中有逻辑需求需要完成的,我们可以用动态DP去解决。像是在这到题目中,这个扩充过程的区间很好找(有个字符串,很容易确定下标),中间的逻辑需求就是怎么判断回文。,从a开始a对于本身就是一个回文字符子串,ab不回文,aba回文,abac不会文,在这个过程我们实际上是遍历了字符串下标从0到n-1的所有结果,但是看本题我们还需要找最长的。从转移方程以及区间DP的扩充区间整个抽象移动过程来说,i是要不断往左,而j是需要不断往右的(可以结合图像进行理解)。

2024-07-18 17:32:07 181

原创 Hive中怎么行转列?怎么列转行?

具体介绍,后面会有新文章。在标准SQL中,不允许在投影阶段(select子句)阶段修改行的数量,因此需要借助lateral view来实现行拓展的操作。实际场景中,比如数仓表开发的时候,维度值是游戏名称,里面有穿越火线啊CSGO啊之类的,但是最终我们还希望得到一个all值代表全部游戏,方便下游表的统计分析,这时候可能就得在explode函数的传入参数中动点手脚了。首先,行转列列转行是数仓工作中还比较常见的问题,通常与Hive中的。其次,行转列的sql编写也是面试常考题之一,面试者需要重点关注。

2024-07-02 17:21:19 347

原创 Java调用对象方法的过程是怎么样的?

当有一个方法调用,然后这个方法可能在超类有定义然后子类重写了它,这时候JVM不会立马调用具体了哪个类中的方法,它会等到在运行时候检查对象的实际类型,根据这个类型,查找这个类型的方法表来找到对应的方法来实现。这样一来,在真正调用方法的时候,虚拟机仅仅查找这个表就行了。值得注意的是如果调用的方法是private,static,final方法或者构造器,那么编译阶段中编译器就已经知道要调用哪个方法了,这种调用方式是。上一步之后,编译器将会查看调用方法时候,你传入的参数类型,那上面的例子,你写的如果是。

2024-06-27 00:02:07 233

原创 SQL做题笔记(LeetCode176)

2023-03-01 23:02:00 26

原创 SQL做题笔记(LeetCode175)

日后总计与温记

2023-03-01 09:28:55 33 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除