2.大数据基础(下)_1.理解Hadoop生态系统.txt_对hadoop生态系统的理解-CSDN博客

本文链接：https://blog.csdn.net/qqiuzaihui/article/details/48375563

1.------------------------------------
Hadoop生态系统中的核心部分，是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要，这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署，Hadoop生态系统提供了一系列有用的工具和技术。

* 小结：
- 为了对大数据进行开发与部署，Hadoop就好比一个生态系统，提供了各种工具和技术。
- Hadoop生态系统的核心组件有：Hadoop分布式文件系统(HDFS)和MapReduce.
- Hadoop生态系统包括各种工具和技术，比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.
- HDFS是一个分布式文件系统，可对数据进行分发和管理，并保证数据安全。
- HDFS是一个存储与管理文件的实用的强有力的集群方式。
- HDFS只允许你在文件创建时进行一次写入操作，这样就可以在做任意机器上读取文件的任意一个拷贝，这一特性使得HDFS成为了一个存储大文件的极佳选择。
- HDFS通过元数据对所有的信息块进行追踪。
- HDFS架构使用Datanode和Namenode解决了以下问题：数据安全，复制，可靠性以及冗余。

2.------------------------------------
* Some Special Features of HDFS:
- 数据复制
- 恢复：这使用客户端应用不必知道所有数据块的位置
- 支持创建数据工作流（这是MapReduce的一个重要特性）
- 具有再平衡机制（可以根据每个磁盘的使用程度对Datanode进行再平衡，这个机制在集群处于活动状态时运行，在网络流量大时就会停止运行，以避免阻塞）

* 小结：
- HDFS是一个可靠高带宽，低成本的数据存储集群，可以简化机器间相关联文件的管理
- HDFS使用一个块结构的文件系统，遵循一个主从架构。
- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"
- Namenode管理文件系统的命名空间，并规范客户端向文件的连接
- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。
- 通过Hadoop机架感应过程，当一个机架出错时，数据也不会丢失，数据副本被均匀地存储在HDFS集群中
- HDFS将每个数据块复制到三台机器中，这样在任意一台机器出错时，数据也不会损坏。

--------------------------------------
21:39 2015/8/25