2013年03月_MrTitan

09月 06月 05月 04月 03月 02月 01月

原创 hadoop核心逻辑shuffle代码分析-map端

首先要推荐一下：http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程，强烈推荐先读一下。不过，上文没有写明一些实现的细节，比如：spill的过程，mapper生成文件的partition是怎么做的等等，相信有很多人跟我一样在看了上面的文章后还是有很多疑问，我也是带着疑问

2013-03-24 21:01:30 4174 3

原创 Hadoop cdh4.2.0配置 ShortCircuitRead

Hadoop在读数据时提供了一种优化：如果读的block文件在本地时，hdfs的client会直接读本地data.dir内的block文件，而不是从datanode的网络端口读取。这个优化在mapreduce时会对性能有很大的提升，因为一般来说mapper都会和读取数据在一台server上。ShortCircuitRead功能在chd4.1.0上有bug，除了hdfs用户其他用户比如hbase

2013-03-21 18:10:43 2227

原创实时系统HBase读写优化--大量写入无障碍

在使用hbase过程中发现在写入hbase的数据量很大时，经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的，一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。1.禁止Major Compaction在hbase进行Major Compaction时，该region将合并所有的storefile，因此整个region都不可读，所有对

2013-03-11 18:14:00 19228 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 hadoop核心逻辑shuffle代码分析-map端

原创 Hadoop cdh4.2.0配置 ShortCircuitRead

原创 实时系统HBase读写优化--大量写入无障碍

空空如也

空空如也

原创实时系统HBase读写优化--大量写入无障碍