- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 hadoop核心逻辑shuffle代码分析-map端
首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。 不过,上文没有写明一些实现的细节,比如:spill的过程,mapper生成文件的partition是怎么做的等等,相信有很多人跟我一样在看了上面的文章后还是有很多疑问,我也是带着疑问
2013-03-24 21:01:30 4174 3
原创 Hadoop cdh4.2.0配置 ShortCircuitRead
Hadoop在读数据时提供了一种优化:如果读的block文件在本地时,hdfs的client会直接读本地data.dir内的block文件,而不是从datanode的网络端口读取。这个优化在mapreduce时会对性能有很大的提升,因为一般来说mapper都会和读取数据在一台server上。ShortCircuitRead功能在chd4.1.0上有bug,除了hdfs用户其他用户比如hbase
2013-03-21 18:10:43 2227
原创 实时系统HBase读写优化--大量写入无障碍
在使用hbase过程中发现在写入hbase的数据量很大时,经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的,一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。1.禁止Major Compaction在hbase进行Major Compaction时,该region将合并所有的storefile,因此整个region都不可读,所有对
2013-03-11 18:14:00 19228 6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人