组件
- hdfs是专门放数据的地方,
- yarn是资源管理,
- mapduce是计算用的,
- zookeeper是专门协调打架用的
- flume用来采集数据,
- sqoop是数据库之间的相互转换工具:mysql
- hive 数据仓库
- Hbase列式数据库
大数据概述
- 特征:(4v)大量(Volume),多样(Varity),高速(Velocity),价值(Value)。
- Hadoop前世今生
- Hadoop优势:
- 扩容能力强
- 成本低
- 高效率
- 可靠性
- 高容错率
- Hadoop生态
- HDFS:分布式文件系统,是分布式计算中数据存储管理的基础。专门存放数据。
- MapReduce:计算模型,用于大规模数据集的 并行运算
- Yarn:资源管理器,为上层应用提供统一的资源管理和调度
- Sqoop:开源数据导入导出工具,用于Hadoop与传统数据库的数据交换
- Mahout:帮助开发人员方便快捷的创建智能应用程序
- HBase:是Google Bigtable的克隆版,是一个针对结构化数据的可升缩性、高可靠性、高性能、分布式和面向列的动态模式数据库
- Zookeeper:分布式的,分布式应用程序协调服务。解决单点故障。
- Hive:基于Hadoop的一个分布式数据仓库工具。
- Flume:日志采集系统,采集数据