自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

hua840812的专栏

08月 07月 06月 05月 04月 03月 02月 01月

转载 Spark源码分析 – Shuffle

Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge, 基于文件的多路并归排序, 在map端的将相同part

2014-07-22 10:29:23 916

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hua840812 CSDN认证博客专家 CSDN认证企业博客

码龄16年

IP 属地：日本

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

9: 原创

105万+: 周排名

38万+: 总排名

16万+: 访问

: 等级

2016: 积分

18: 粉丝

15: 获赞

13: 评论

24: 收藏

私信

关注

热门文章

分类专栏

hadoop 31篇
hbase 26篇
oracle NoSQL
cloudera Hadoop 4篇
other NoSQL 9篇
spark 2篇
RDBMS 3篇
OBIEE 4篇
hive 4篇
linux 12篇
oracle products 1篇
BDA
Exadata 1篇
oracle database
others 6篇
solr 2篇

最新评论

Ubuntu下面安装和配置Hadoop的dfs-fuse
向彪-blockchain: 啥都不说了，请收下我的膝盖！
unixODBC安装
java后端指南: 这个./configure找不到怎么办
Exadata上的多主机管理工具——dcli
高效运维传道士: [code=html] BatchShell批量主机管理工具更简单易用，类似Xshell+Ansible功能官网描述的功能特点： 1)支持原生Shell,也支持Ansible、SaltStack脚本，可1秒完成对上百台服务器命令执行与文件同步。 2)内含文件编辑器，支持本地、远程文件在线编辑，替换、保存、对比 3)支持文件本地版本控制(git)，实现文件修改历史回溯 4)支持跨主机文件右键拷贝、复制功能 5)支持跨网络多主机文件同步与命令执行 6)支持本地、远程文件检索功能 7)支持可视化任务调度，包括文件同步、命令执行 8)支持putty免密启动 9)支持自定义可视化命令，如压缩、解压、编译等等可以去官网www.batchshell.cn下载最新版本试试 [/code]
Virtualbox运行报cannot access the kernel driver的解决分享修改删除
java持续实践: 还是不行啊
IBM携手SequoiaDB打造民生银行全新大数据平台
yebai: 写的很好啊。

最新文章

提示

确定要删除当前文章？

取消删除