- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 Hive统计每日新增及其二日和三十日回访比例
数据如下:一、求每日新增方法:每日新增即用户第一次访问,那么此时按照用户的id为key做分组,求他访问的最大时间和最小时间(天);如果最大时间等于最小时间,那么说明用户是第一次访问,否则不是;那么总的来说就是按照用户的最小时间统计即可select min_date,count(distinct user_id) as per_day_newfrom( select u...
2019-07-30 09:19:47 1778
原创 spark mongodb 踩坑 Caused by: java.io.InvalidClassException: com.mongodb.spark.rdd.MongoRDD
本人在工作中用到了部分spark-mongodb的整合,今天在测试环境测试的时候,提交任务到yarn出现问题,具体描述如:根据错误提示,搜索了很久,说class 序列号问题经过仔细排查后,发现,分析:client端类版本与server端不一致;线上环境的jar的版本和本次打jar包的环境的版本不一致导致的compile group: 'org.mongodb.spark', name: '...
2019-07-19 13:55:23 715
转载 spark sql 自适应 Adaptive Execution
一、Spark 目前现有的一些问题问题一:Shuffle partition数量没有达到最优在Spark SQL中,我们可以通过spark.sql.shuffle.partition来设置shuffle后的partition数量,默认值是200。shuffle partition的数量等同于下一Stage的Reduce Task的数量。因为shuffle的原因,这些Task处理的数据量残差不齐...
2019-07-17 21:43:23 525
原创 那些年用过的时间衰减函数
在我们日常的应用中时间衰减函数无处不在,比如避免出现犹太反应(强者愈强,弱者愈弱)各种排行榜;通常我们希望某些指标如文章热度、电影评分随着时间的漂移越来越低或者随着时间的衰减出现一个系数能拟合这一过程,比较出名的就是牛顿冷却定律。一、刚开始接触时间衰减,是在使用elasticsearch的过程中对function_score函数的使用function_score支持的衰减函数有三种,分别是 l...
2019-07-17 21:07:06 22405
原创 spark 排序实现原理 RangePartitioner
sprak Core中比较常用的排序方法sortBy和sortKByKey,这是一个shuffle类算法子,宽依赖,出发DAGSchedular划分Stage,那么他们排序的原理是啥呢?第一步Stage0:分区采样Sample,创建RangePartitioner,先对输入的数据的key做采样,来估算Key的分布,然后按照指定的排序切分range,尽量让每个partition对应的range里...
2019-07-17 18:23:38 1170 1
原创 spark core sortBy和sortByKey探索
感觉自己好久没有更新过博客了,本人最近有点儿迷失,特来写篇技术博客,以做自警不知道大家有没有注意到,大家在编写spark程序调用sortBy/sortByKey这两个算子的时候大家会不会有这样子的疑问,他们两个明明是transformation,为啥在执行的时候却触发了作业的执行呢?今天就和大家一起一探究竟? val wordCountRdd = spark.sparkContext.text...
2019-07-17 17:14:26 316
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人