- 博客(3)
- 收藏
- 关注
原创 Hive Sql题
第一题: 了解哪些窗口函数,都是什么功能?找一个在某个业务中的应用? 手写窗口函数及功能意义,同时随便写一个带窗口函数的sql,并说明其sql的含义。 2、求出每个栏目的被观看次数及累计观看时长? 数据: video表 uid channel min 1 1 23 2 1 12 3 1 12 4 1 32 5 1 342 6 2 13 7 2 34 8 2 13 9 2 134 create table video( uid int, channel ...
2022-02-21 21:04:20
1324
原创 Spark的shuffle
1. Spark的shuffle阶段发生在阶段划分时,也就是宽依赖算子时。 宽依赖算子不一定发生shuffle。 2. Spark的shuffle分两个阶段,一个使Shuffle Write阶段,一个使Shuffle read阶段。 3. Shuffle Write阶段会选择分区器,比如HashPartitioner,RangePartitioner,或者使自定义分区器 也会根据一些条件,来选择到底使用哪一个Writer对象 unsafeshuffleWri...
2021-10-26 20:36:58
2179
原创 Spark算子的比较
比较map flatMap mapPartitions mapPartitionsWithIndex Spark中,最基本的原则,就是每个task处理一个RDD的partition。 MapPartitions操作的优点: 如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。 但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有 的partition数据。只要执行一次就可以..
2021-10-21 19:27:51
208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅