大数据—Hadoop生态圈

最新推荐文章于 2024-07-27 18:36:27 发布

活到老&学到老

最新推荐文章于 2024-07-27 18:36:27 发布

阅读量1.9k

点赞数

分类专栏：大数据文章标签： hadoop big data mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/len9596/article/details/120957772

版权

本文介绍了Hadoop生态圈中的关键组件，包括数据存储的HDFS、数据分析的MapReduce、资源管理的Yarn、内存计算的Spark、数据仓库Hive、列存储数据库Hbase、工作流调度器Oozie、数据导入工具Sqoop和Pig、日志收集的Flume以及消息队列Kafka。此外，还提到了大数据运维工具Ambari，用于自动化部署和监控Hadoop组件。

摘要由CSDN通过智能技术生成

前言

整理了一下目前常用的hadoop组件，后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。

生态圈

生态圈

数据存储：HDFS

HDFS，它是 Hadoop 技术体系中的核心基石，负责分布式存储数据，你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储，一个文件存储在 HDFS 上时会被分成若干个数据块，每个数据块分别存储在不同的服务器上。
原理图
如上图：

NameNode：HDFS管理节点，存储元数据，同时负责读，写调度和存储分配。
DataNode：数据存储节点，用来存储数据。在DataNode上的每个数据块会根据设置的副本数进行分级复制，保证同一个文件的每个数据块副本都不在同一台机器上。

数据分析：MapReduce

mapreduce是分布式计算模型，离线计算。mapreduce的发展已经经过了15个年头。在大数据的今天，数据量都在PB甚至EB级别，对数据分析效率有了更高的要求。于是，第二代计算模型产生了，比如Tez和Spark。它们大量使用内存，灵活

最低0.47元/天解锁文章

活到老&学到老

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

活到老&学到老 CSDN认证博客专家 CSDN认证企业博客

码龄10年

72: 原创

8万+: 周排名

204万+: 总排名

22万+: 访问

: 等级

2300: 积分

25: 粉丝

14: 获赞

19: 评论

126: 收藏

私信

关注

热门文章

分类专栏

最新评论

工具安装 | docker安装ansible-awx
solihawk: Ansible Tower的使用，参考https://blog.csdn.net/solihawk/article/details/121958909
k8s系列-白话Kubernetes架构
Cdf（人名）: 写的很详细
k8s系列-白话Kubernetes架构
泰山AI: 宋江、卢俊义、吴用、公孙胜、关胜、林冲、秦明、呼延灼、花荣、柴进、李应、朱仝、鲁智深、武松、董平、张清、杨志、徐宁、索超、戴宗、刘唐、李逵、史进、穆弘、雷横、李俊、阮小二、张横、阮小五、张顺、阮小七、杨雄、石秀、解珍、解宝、燕青、朱武、黄信、孙立、宣赞、郝思文、韩滔、彭玘、单廷珪、魏定国、萧让、裴宣、欧鹏、邓飞、燕顺、杨林、凌振、蒋敬、吕方、郭盛、安道全、皇甫端、王英、扈三娘、鲍旭、樊瑞、孔明、孔亮、项充、李衮、金大坚、马麟、童威、童猛、孟康、侯健、陈达、杨春、郑天寿、陶宗旺、宋清、乐和、龚旺、丁得孙、穆春、曹正、宋万、杜迁、薛永、施恩、周通、李忠、杜兴、汤隆、邹渊、邹润、朱富、朱贵、蔡福、蔡庆、李立、李云、焦挺、石勇、孙新、顾大嫂、张青、孙二娘、王定六、郁保四、白胜、时迁、段景柱等108人感觉很赞
linux工具——PPTP搭建及配置
i72896: 请问第三步是什么意思？
python编译Django报错
懵圈树下你和我: 请问什么是电脑名称a？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。