Hadoop
文章平均质量分 72
AndysCat
这个作者很懒,什么都没留下…
展开
-
《Hadoop学习笔记系列》一.Hadoop基础
1.大数据概念大数据指: 不能使用一台机器进行处理的数据 大数据的核心是样本=总体2.大数据的特性: 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上快速性(velocity): 反映在数据的快速产生及数据变更的频率上 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-struct原创 2016-10-23 14:51:39 · 279 阅读 · 0 评论 -
《Hadoop学习笔记系列》二.Hadoop分布式文件系统 HDFS
0.Hadoop分布式文件系统 HDFSHDFS以流式数据访问模式来存储超大文件,运行与商用硬件集群上。1.流式数据访问HDFS的构建思路:一次写入,多次读取是最高效的访问模式。 2. Block数据块HDFS基本读写单位,类似于磁盘的页,每次都是读写一个块一般大小为64M,配置大的块目的是最小化寻址开销。 因为: 1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间; 2原创 2016-11-06 13:03:08 · 410 阅读 · 0 评论