spark
焚香余音
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
WordCount
1. def wc1(): Unit = { val conf = new SparkConf().setAppName("wc").setMaster("local[2]"); val sc = new SparkContext(conf) val wc = sc.textFile("E://java//HelloSpark//src//word.txt").f...原创 2019-01-07 10:59:25 · 235 阅读 · 0 评论 -
利用Maxwell组件实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费
https://blog.csdn.net/qq_30921461/article/details/78320750转载 2019-03-14 10:57:35 · 532 阅读 · 1 评论 -
spark 算子 combineByKey详解
为什么单独讲解combineByKey? 因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等 如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag) def combineByKey[C]( ...转载 2019-08-27 20:57:28 · 384 阅读 · 0 评论 -
Spark 算子 countByKey()与reduceByKey()
1.transformation & action transformation :是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD或者从RDD生成一个新的RDD action : 是得到一个值,或者一个结果(直接将RDDcache到内存中) 所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会...原创 2019-08-27 21:01:30 · 482 阅读 · 0 评论 -
spark 性能调优
Spark性能调优手段: 判断内存消耗:设置RDD并行度,将RDD cache到内存,通过BlockManagerMasterActor添加RDD到memory中的日志查看每个partition占了多少内存,最后乘以partition数量,即是RDD内存占用量。 1.Shuffle调优(核心) a.consolidation机制,使shuffleMapTask端写磁盘的文件数量减少,resu...原创 2019-08-29 20:49:03 · 271 阅读 · 0 评论
分享