spark_焚香余音的博客-CSDN博客

spark

关注

关注数：文章数：5 文章阅读量：1904 文章收藏量：0

作者: 焚香余音

这个作者很懒，什么都没留下…

展开

专栏收录文章

WordCount

1. def wc1(): Unit = { val conf = new SparkConf().setAppName("wc").setMaster("local[2]"); val sc = new SparkContext(conf) val wc = sc.textFile("E://java//HelloSpark//src//word.txt").f...

原创 2019-01-07 10:59:25 · 235 阅读 · 0 评论
利用Maxwell组件实时监听Mysql的binlog日志，并且把解析的json格式数据发送到kafka窗口供实时消费

https://blog.csdn.net/qq_30921461/article/details/78320750

转载 2019-03-14 10:57:35 · 532 阅读 · 1 评论
spark 算子 combineByKey详解

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag) def combineByKey[C]( ...

转载 2019-08-27 20:57:28 · 384 阅读 · 0 评论
Spark 算子 countByKey()与reduceByKey()

1.transformation & action transformation ：是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD或者从RDD生成一个新的RDD action ：是得到一个值，或者一个结果（直接将RDDcache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会...

原创 2019-08-27 21:01:30 · 482 阅读 · 0 评论
spark 性能调优

Spark性能调优手段：判断内存消耗：设置RDD并行度，将RDD cache到内存，通过BlockManagerMasterActor添加RDD到memory中的日志查看每个partition占了多少内存，最后乘以partition数量，即是RDD内存占用量。 1.Shuffle调优（核心） a.consolidation机制，使shuffleMapTask端写磁盘的文件数量减少，resu...

原创 2019-08-29 20:49:03 · 271 阅读 · 0 评论

spark

作者: 焚香余音

WordCount

利用Maxwell组件实时监听Mysql的binlog日志，并且把解析的json格式数据发送到kafka窗口供实时消费

spark 算子 combineByKey详解

Spark 算子 countByKey()与reduceByKey()

spark 性能调优