hadoop 基本概念了解
- common :hadoop组件公共常用工具类
- Avro:Avro是用于数据序列化的系统。不同机器之间数据交流的保障。
- MapReduce:MapReduce是一种编程模型,分为Map函数和Reduce函数。Map函数负责将输入数据<k1,v1>转化为中间值<k2,v2>,中间值<k2,v2>再通过Reduce函数转化成输出数据<k3,v3>
- HDFS:HDFS是一个分布式文件系统。通过一次写入,多次读出来实现。
- Chukwa:Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
- Hive:是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。
- HBase:是一个分布式的、面向列的开源数据库。
- Pig:是一个对大型数据集进行分析、评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验。
- ZooKeeper:ZooKeeper是一个为分布式应用所设计的开源协调服务。它主要为用户提供同步、配置管理、分组和命名等服务,减轻分布式应用程序所承担的协调任务。
hadoop 简单原理
-
数据分布存储
Hadoop分布式文件系统(HDFS)由一个名字节点(NameNode)和多个数据节点(DataNode)组成,每个节点都是一台普通的计算机。
文件在HDFS底层被切割成了Block(文件块),这些Block分散地存储在不同的DataNode上,每个Bl

本文介绍了Hadoop的基本概念,包括HDFS、MapReduce、ZooKeeper等组件。HDFS是一个分布式文件系统,采用数据复制策略确保容错性。MapReduce是编程模型,用于大规模数据的并行计算。此外,文章还概述了Hadoop的数据管理和HBase的数据管理特点。
最低0.47元/天 解锁文章
941

被折叠的 条评论
为什么被折叠?



