- Hadoop是一个分布式系统的基础架构,在用户不需要了解底层分布式细节的情况下,进行分布式程序的开发。从而利用分布式集群进行高速的存储和运算。
- Hadoop的主要模块
HDFS:分布式存储系统
YARN: 任务调度和集群资源管理
MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统
Hbase:分布式的、面向列的开源数据库
Hive:基于Hadoop的一个数据仓库工具
Pig:运行在Hadoop上,对大型数据集进行分析和评估的平台
Spark:Hadoop数据快速通用的计算引擎
ZooKeeper: 一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。 - 方案是把最原始的数据,存入hadoop中。定期做清洗和分析,把处理好的数据放到mysql库里,供web应用读取,展示到页面上。
- (参考 侵删)
- HDFS:分布式文件系统,引入存放文件元数据信息的服务器和实际存放数据的服务器DataNode,对数据进行分布式存储和读取
- MapReduce:计算框架,核心思想是把计算任务分配给集群内的服务器里进行执行,通过对计算任务的拆分,再根据任务调度器对任务进行分布式计算。
项目实训记录3-技术选型-hadoop入门(1)
最新推荐文章于 2024-06-12 09:20:43 发布