![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据组件
文章平均质量分 92
Hark_Hacker
这个作者很懒,什么都没留下…
展开
-
spark-shuffle总结及调优
spark1.2 默认使用的是 HashShuffle写入磁盘流程: 将每个task 处理的数据,按照 key 的 hash 进行分类,从而相同的 key 写入到同一个磁盘文件里面,而每个磁盘文件都只属于下游 stage 的一个 task,将数据写入到磁盘前,会先将数据写入到内存缓冲中,当内存缓冲填满后,溢写到磁盘文件中 不排序,当前 stage 的每个 maptask,会为下个 stage每个 reducetask生成一个文件; 文件数量计算公式...原创 2020-09-18 16:54:25 · 506 阅读 · 0 评论 -
flume使用自定义inteceptor,以及遇到 java.lang.InstantiationException
主要内容flume conf 配置:拦截器+选择器 自定义拦截器 自定义拦截器使用方式与可能遇到的问题1 flume 配置#interceptor 注意 自定义的interceptor后面的"$Builder"一定不能忘记 a1.sources.r1.interceptors = i1 i2 a1.sources.r1.interceptors.i1.type= com.china.flume.interceptor.LogEtlInterceptor$Buildera1.sou.原创 2020-08-07 13:25:57 · 2442 阅读 · 2 评论