Hadoop生态圈

最新推荐文章于 2024-07-27 10:13:06 发布

多喝热水　

最新推荐文章于 2024-07-27 10:13:06 发布

阅读量136

点赞数

分类专栏：大数据文章标签：大数据 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35350265/article/details/107025078

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

Hadoop

定义

优势

高扩展性：存储可扩展，计算可扩展

高可靠性：分布式文件系统的备份恢复机制

高效性：分布式文件系统的高效数据交互

经济性：可部署在普通pc

生态圈

1.0时代

2.0时代

重要组件

分布式存储系统HDFS

资源管理系统YARN

分布式计算框架MapReduce

HDFS

定义

特点

存储大文件。

大文件分割为小存储块。

流式数据读取。

本身是分布式的，具备良好的可扩展性。

不适合

不适合存储大量小文件（<1MB）

不适合实时数据读取

不适合需要经常修改数据场景

MapReduce

处理过程

YARN

定义

负责集群的资源管理和调度。是多种计算机框架可以运行在一个集群中

特点

良好的扩展性，高可用性

对多种类型的应用程序进行统一管理和调度

自带了多种多用户调度器，适合共享集群环

HIVE

定义

将HIVE SQL装换为MapReduce程序去执行，使不熟悉MapReduce的用户很方便利用HQL进行数据ETL操作。

特点

更友好的接口

更低的学习成本：自动实现SQL到MapReduce任务的装换

更好的可扩展性：扩展集群规模不需要重启服务，并且支持用户自定义函数

良好的容错性：hive节点出现问题，SQL可无中断执行

HBase

定义

开源的，面向列，适合存储海量非结构化数据或者半结构化数据的。具备高可靠性，高性能，可灵活伸缩扩展的，支持实时数据读写的分布式存储系统

特点

大表：一个表有上亿行，上百列

面向列：面向列的存储，检索和权限控制

稀疏：表中为空（NULL）的列不占用存储空间

Zookeeper

定义

大型分布式系统的高可用协调服务，例如维护分布式集群的配置或命名信息，实现这些配置信息的协调与同步。

在HDFS中，Zookeeper通常用来监控Name Node的运行状态，并实现Name Node的主备切换

Bookkeeper

定义

Bookeeper主要用来保障Name Node的可靠性。

在HDFS中Bookkeeper作为主备Name Node的共享存储保存Name Node上存放的HDFS的元数据

Spark

定义

Spark是一个用于Hadoop数据的开源分布式SQL查询引擎。是基于内存查询的快速，可扩展的大规模数据处理通用引擎。

R语言

定义

R是一个统计计算和统计制图的免费软件环境

Ambari

定义

Ambari用来创建，管理，监视Hadoop的集群。

这里的Hadoop是广义的，指Hadoop整个生态圈（例如hive，hbase，sqoop，zookeeper等）

功能

1.通过一步一步的安装导向简化了集群供应

2.预先配置好关键的运维指标（metrics）可以直接查看组件（HDFS/MapReduce）和项目（HBASE/Hive）的状态

3.支持作业与任务执行的可视化与分析

4.用户界面非常直观

Flume

定义

日志收集系统

概念

数据传输过程中缓存，松达后删除缓存

数据基本单位Event

运行核心Agent

特征

可靠性

可扩展性

可管理性

多喝热水　

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态圈

Hadoop定义生态圈1.0时代2.0时代重要组件分布式存储系统HDFS资源管理系统YARN分布式计算框架MapReduceHDFS特点存储大文件。大文件分割为小存储块。流式数据读取。本身是分布式的，具备良好的可扩展性。不适合存储大量小文件（<1MB）实时数据读取需要经常修改数据场景MapReduce...
复制链接

扫一扫

专栏目录

多喝热水　 CSDN认证博客专家 CSDN认证企业博客

码龄8年

119: 原创

2万+: 周排名

85万+: 总排名

18万+: 访问

: 等级

2437: 积分

1959: 粉丝

93: 获赞

38: 评论

733: 收藏

私信

关注

热门文章

分类专栏

信息安全 20篇
大数据 1篇
道家 2篇
机器学习 9篇
设计模式 4篇
Python相关 50篇
Java相关 3篇
React相关 12篇
数据库 6篇
GIT 5篇
Excel 2篇
学习路径 3篇

最新评论

Python数据有效性DataValidation模块
冷小鱼: dv.ranges.ranges.append(MultiCellRange('B1:B10000')) 勉强可以，至于为啥是10000，因为不支持所有列，你给个差不多的值就好了，再大了导不进去。作者的写法，一个个加才行，但是性能特别差。
【逻辑漏洞】短信轰炸
小嘎5857: 有截图吗，这个短信轰炸到底咋测的，百度半天没找到，只有一些文字，如果程序做了一分钟只能发一次的限制，那我们可以一次性并发发50个呢，听说可以用bp的turbo intruder ，不会用啊
Burpsuite配合蚁剑制作并连接图片马
夜未至: 对
Burpsuite配合蚁剑制作并连接图片马
缘忆02: 白名单的关卡，还存在文件包含，会自动运行图片中存在的PHP语句，.jpg或.png结尾绕过白名单，在借用文件包含漏洞，连接图片中的木马语句，我所知道的这种情况如果不存在文件包含漏洞就无法连接
Burpsuite配合蚁剑制作并连接图片马
__Charlie___: 图片马怎么连接？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。