- 博客(4)
- 资源 (18)
- 问答 (2)
- 收藏
- 关注
原创 HDFS的设计——两大一小+又多又快
HDFS的设计——两大一小+又多又快 HDFS是为以流式数据访问模式存储超大文件而设计的文件系统,在商用硬件的集群上运行。让我们仔细看看下面的明。 超大文件 "超大文件"在这里指几百MB,几百GB甚至几百TB大小的文件。目前已经有Hadoop集群存储PB(petabytes)级的数据了。 流式数据访问 HDFS建立在这样一个思想上:一次写入、多次读取模式是最高效的。一个数据集
2015-03-31 14:26:01 1010
转载 Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽
2015-03-31 10:36:32 557
转载 MapReduce 与 关系型数据库的区别
MapReduce 与 关系型数据库的区别: 1 数据访问模式受限于磁盘寻址 磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。 2 MapRed
2015-03-30 16:50:04 723
转载 MapReduce 与 关系型数据库的区别
MapReduce 与 关系型数据库的区别: 1 数据访问模式受限于磁盘寻址 磁盘寻址时间提高速度远远小于数据传输速率提高速度。对于超大规模数据(以PB为单位)必须考虑使用其他方式。关系型数据库使用B树结构进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。但是大数据量时,B树使用排序/合并方式重建数据库以更新数据的效率远远低于MapReduce。 2 Map
2015-03-30 16:48:56 1787 1
OGC Discrete Global Grid Systems 全球离散网格系统 (修订版)
2017-06-11
A field survey system for land consolidation based on 3S and speech recognition
2017-03-22
Spatial Interpolation Methods Study Based on Geostatistics for Population
2017-03-22
Hadoop 如何将结果分配到指定的机器上去?
2016-04-14
如何从一个分类集合中取出一个子集??
2016-02-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人