- 博客(4)
- 收藏
- 关注
原创 sql 易错点(重点)
with t1 as( select null as f1, 21 as f2 union all select 1 as f1, 22 as f2 union all select 11 as f1, 23 as f2)select * from t1 where f1 <> 1with t1 as ( select null as f1, 21 as f2 union all select 1 as.
2021-09-28 16:01:25 210
原创 spark内存模型
Spark 1.6 开始使用了统一内存管理模块(UnifiedMemoryManager),并引入了堆外内存(Off-heap memory),1.6之前的内存管理就不进行介绍了。spark堆内和堆外内存模型的示意图(注意:堆外内存是依赖于worker的,而不是executor)spark堆外:(之所以叫spark堆外,是因为后续要和jvm堆外进行区别,也是大家容易弄混淆的地方),为了进一步优化内存的使用以及提高 Shuffle 时排序的效率,Spark 引入了堆外(Off-heap)内
2021-09-19 16:30:12 1774
原创 Spark Hive 小文件合并
背景小文件带来的问题对于HDFS从 NN RPC请求角度,文件数越多,读写文件时,对于NN的RPC请求就越多,增大NN压力。从 NN 元数据存储角度,文件数越多,NN存储的元数据就越大。对于下游流程下游流程,不论是MR、Hive还是Spark,在划分分片(getSplits)的时候,都要从NN获取文件信息。这个过程的耗时与文件数成正比,同时受NN压力的影响。在NN压力大,上游小文件多的情况下,下游的getSplits操作就会比较慢。作业生成的文件数为了简化问题,假设:
2021-09-18 18:05:11 2976
原创 hbase compaction
minor compaction会真正删除 ttl的内容major compactionttl多余version
2021-09-02 21:39:28 628
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人