大数据
老高丶
这个作者很懒,什么都没留下…
展开
-
flume“Space for commit to queue couldn't be acquired”异常产生分析
问题触发的环境:kafka source + memory channel + hdfs sink日志截图如下: 这里说的内容是:queue空间不足。sink好像没有紧跟source,或者是buffer大小太小。这里的queue代表什么?sink没有紧跟source的具体含义是什么?buffer又是什么?我分析源代码后,将结果在下面铺开向大家展示。memory channel内部结构 memo原创 2017-09-10 16:27:52 · 6355 阅读 · 0 评论 -
flume消费文件夹消费不及处理办法
文件生产速度过快,flume会出现消费不及的现象,下面这个参数调节一下应该会有改善: maxBackoff 这个参数代表当source向channel放数据时检测到channel满了后等待多久再进行重试,默认是4秒。如果已经出现消费不及现象,channel频繁被撑满,然而满了后还要等很久,造成文件越来越多,降低这个参数可以有效缓解消费不及。 官网链接:http://flume.apache.o原创 2017-11-21 20:38:26 · 1766 阅读 · 0 评论 -
spark RDD 宽依赖与窄依赖
我的新博客地址:geekgao.cn RDD被设计为可以记录依赖关系,关系可以分为两类:窄依赖和宽依赖。 窄依赖:表示父亲 RDD 的一个分区最多被子 RDD 一个分区所依赖。 宽依赖:表示父亲 RDD 的一个分区可以被子 RDD 的多个子分区所依赖。如下图,左边是窄依赖,右边是宽依赖:原创 2018-01-23 23:24:28 · 825 阅读 · 0 评论 -
Spark的Job、Stage、Task是按何种规则产生的
上面这张图就可以很清晰的说明这个问题。(图中最小的方块代表一个partition,包裹partition的方块是RDD,忽略颜色)JobSpark的Job来源于用户执行action操作,就是从RDD中获取结果的操作,而不是将一个RDD转换成另一个RDD的transformation操作。StageSpark的Stage是分割RDD执行的各种transformation而来。如上原创 2018-01-24 23:04:34 · 3188 阅读 · 4 评论