Hadoop项目简介

最新推荐文章于 2024-06-30 18:24:20 发布

6点A君

最新推荐文章于 2024-06-30 18:24:20 发布

阅读量677

点赞数

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anLA_/article/details/88652366

版权

Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

首先看一张图：
在这里插入图片描述

Common，是为Hadoop其他子项目提供的常用工具，主要包括FileSystem、RPC和串行化库。为廉价硬件上搭建云环境提供基本服务，并且会为该平台的软件开发提供所需API
Avro：Avro是用于数据序列化和系统，提供了丰富的数据结构类型，快速可压缩二进制数据格式。
MapReduce：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。映射(Map)、化简(Reduce)的概念从函数式得来。(MapReduce程序将输入划分到不同的Map上，再将Map的结果合并到Reduce上，然后进行处理输出过程)
HDFS：HDFS是一个分布式文件系统。HDFS具有高容错性，可以部署在低廉的硬件上。
HDFS设计目标：

检测和快速恢复硬件故障
流式的数据访问
简化一致性模型
通信协议

Chukwa：Chukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。
Hive：是一个建立在Hadoop基础之上的数据仓库。支持类似于sql的查询语句。
HBase：HBase是一个分布式的，列式存储的开源数据库。
Pig：Pig是一个对大型数据集分析、评估的平台。Pig最突出的优势是它底层结构能够经受住高度并行化的检验。

MapReduce的数据流，简而言之，就是讲大数据集分解为成百上千个小数据集，每个（或若干个）数据集分别由集群的一个节点（一般是一普通计算机）进行处理并生成中间结果，然后这些中间结果又大由大量结果合并，形成最终结果。

ZooKeeper是一个为分布式应用所设计的开源协调服务，主要为用户提供同步、配置管理、分组和命名等服务，减轻分布式应用程序所承担的协调任务。ZooKeeper的文件系统使用了目录树结构，使用Java编写，但是支持Java和C两种编程语言。

Hadoop

Hadoop角色定义

最基本的划分为Master和Slave
从HDFS来说，将主机化为NameNode和DataNode，管理目录相当于主任，而NameNode就是目录管理者
MapReduce角度，将主机划分为JobTracker和TaskTracker，一个Job经常被划分为多个Task

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。