- 博客(2)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
原创 SparkCore杂记二
这篇博客主要讲解Spark中任务shuffle与persistence, 首先来说说shuffle洗牌,学过hadoop的同学应该都了解mapreduce,每一个mapreduce任务都要经过一次shuffle,简单的理解shuffle就是根据key将数据进行重新分布,这个过程会发生文件IO/网络IO,是比较耗性能的一个操作,并且还有可能产生数据倾斜,简单说一下数据倾斜指每个任务中分配的数据不均匀
2017-11-08 20:36:59 301
原创 SparkCore杂记一
接触Spark也有一段时间了,最开始一直都是上网看一些博客,自己搭建个虚拟机倒腾,都是一些零散的学习,回头想想还是有必要系统性的学习、理解一遍,本系列博客将会参照spark 官方文档上来一一讲解,但是也不会仅仅只是翻译(翻译也不全面),其中还会加上一些自己的理解、在项目中的一些所见所闻,希望自己能够慢慢成长起来,如果理解有误还请各位指正。 Spark是基于内存计算的分布式处理系统,相对于
2017-11-08 18:01:01 499
Hadoop 2.2运行wordcount报错
2015-12-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人