大数据的lamda架构之一:
概念
Hadoop:开源的分布式计算框架、高可靠、可扩展
高可靠:集群、副本
可扩展:寄存可上万台,分布式存储、分布式计算
Hadoop可以做什么:
数据仓库:
- 主要记录、很少更新、删除(数据库有事务、只保存最新数据状态)
- PB级别的数据存储、处理、分析、统计(不含事务)
- BI(商业智能)
- 日志分析
- 搜索引擎
- 数据挖掘
Hadoop的组件:
- Hadoop Common:核心组件
- Hadoop Distributed File System (HDFS):分布式文件系统
- 分布式存储
- 通过副本实现冗余
- 文件切割(将文件分成指定大小的数据库,分别存储在多个机器上,以便更大的文件的存储)
- 副本、分布式存储、文件切割对用户透明
- Hadoop MapReduce:分布式计算框架
- 针对分布式存储的数据进行分布式计算
- 可扩展
- 海量数据离线处理
- 计算分成两个阶段:分别计算、再聚合
- Map:数据映射(找这个数据在那些机器上存储),分
- Reduce:数据处理,聚合
- Hadoop YARN:资源管理系统
- 支持其他的计算方案、数据处理框架来同时处理HDFS里存储的文件
- 没有YARN,MapReduce来使用HDFS数据时,是独占的。如果MapReduce只用了文件A,那么文件B等其他文件,就没有可以利用了。浪费时间。
- YARN可以实现一个HDFS数据资源,多个数据处理框架一起访问。