2021年09月_longlovefilm

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 sql 易错点（重点）

with t1 as( select null as f1, 21 as f2 union all select 1 as f1, 22 as f2 union all select 11 as f1, 23 as f2)select * from t1 where f1 <> 1with t1 as ( select null as f1, 21 as f2 union all select 1 as.

2021-09-28 16:01:25 210

原创 spark内存模型

Spark 1.6 开始使用了统一内存管理模块(UnifiedMemoryManager)，并引入了堆外内存(Off-heap memory)，1.6之前的内存管理就不进行介绍了。spark堆内和堆外内存模型的示意图（注意：堆外内存是依赖于worker的，而不是executor）spark堆外：（之所以叫spark堆外，是因为后续要和jvm堆外进行区别，也是大家容易弄混淆的地方），为了进一步优化内存的使用以及提高 Shuffle 时排序的效率，Spark 引入了堆外（Off-heap）内

2021-09-19 16:30:12 1774

原创 Spark Hive 小文件合并

背景小文件带来的问题对于HDFS从 NN RPC请求角度，文件数越多，读写文件时，对于NN的RPC请求就越多，增大NN压力。从 NN 元数据存储角度，文件数越多，NN存储的元数据就越大。对于下游流程下游流程，不论是MR、Hive还是Spark，在划分分片（getSplits）的时候，都要从NN获取文件信息。这个过程的耗时与文件数成正比，同时受NN压力的影响。在NN压力大，上游小文件多的情况下，下游的getSplits操作就会比较慢。作业生成的文件数为了简化问题，假设：

2021-09-18 18:05:11 2976

原创 hbase compaction

minor compaction会真正删除 ttl的内容major compactionttl多余version

2021-09-02 21:39:28 628

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人