读Hadoop实战摘抄笔记
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce 的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构
Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量采用MapReduce来整合分布式文件系统上的数据,可以保证分析和处理数据的高效.与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性.
Hadoop中HDFS的高容错特性,以及他是基于Java语言开发的,,不限于某个操作系统.
Hadoop的优点
1.高可靠性.Hadoop按位存储和处理数据的能力值得人们信赖
2高扩展性.Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便的扩展到数以千计的节点中.
3.高效性.Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因而处理速度非常快
4.高容错性 Hadoop能够自动保存数据的各个副本,并且能够自动将失败的任务重新分配
Core/Common:从Hadoop0.20版本开始更名为Common是为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem,RPC和串行化库.
Avro:Avro是用于数据序列化的系统.
MapReduce:是一种编程模型.用于大规模的数据集(大于1TB)的并行计算.
HDFS是一个分布式文件系统.由于HDFS具有高容错性的特点.
HDFS的设计目标:
1. 检测和快速回复硬件故障也是核心目标
2. 流式的数据访问.
3. 简化一致性模型
4. 通信协议.所有的通信协议都在TCP/IP协议之上.
Chukwa:是开源的数据收集系统,用于监控和分析大型分布式系统的数据.也昔日带了灵活且强大的工具,用于显示、监视和分析数据结果,以便更好地利用所收集的数据.
Hive最早是Facebook设计的,是一个建立在Hadoop基础之上的数据仓库,他提供了一些用了数据整理,特殊查询,和分析存储在Hadoop文件中的数据集的工具
HBase:是一个分布式的、面向列的开源数据库。主要用于随机访问,实时读写的大数据。
Pig:Pig是一个对大型数据集进行分析和评估的平台