大数据组件学习基础之——HADOOP

YaoJwp

已于 2024-09-27 00:36:16 修改

阅读量202

点赞数 1

分类专栏：大数据组件文章标签：大数据 hadoop 学习

于 2024-09-26 23:12:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JYZNCXY/article/details/142580000

版权

大数据组件专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先明确一个问题，大数据技术解决的是海量数据的存储和计算，我们的学习都是围绕这两个目标实现的。

Hadoop（分布式存储和计算实现）介绍：

狭义:指的是一个框架，Hadoop是由三部分组成：

HDFS：分布式文件系统-------------存储；
MapReduce:分布式离线计算框架----------------计算；
Yarn:资源调度框架（hadoop2.x后出现的）

广义:广义Hadoop是不仅仅包含Hadoop框架，除了Hadoop框架之外还有一些辅助框架。Flume：日志数据采集,Sqoop：关系型数据库数据的采集；Hive:深度依赖Hadoop框架完成计算（sql）；Hbase:大数据领域的数据库（mysql）；Sqoop：数据的导出；后续会慢慢补充

Hadoop最早起源于Nutch，创始人是Doug Cutting（Nutch是一个开源Java实现的搜索引擎，它提供了运行自己的搜索引擎所需要的全部工具。包括全文搜索和Web爬虫，随着抓取网页数量的增加，无法解决十几亿网页的存储和索引）

2003、2004年谷歌发表的两篇论文为这个问题提供了解决方案（GFS，处理海量数据存储；MapReduce，实现海量网页的索引计算）

下面分别是谷歌的三篇论文（后面是对应的开源组件实现）：

GFS------>HDFS
Google MapReduce------>Hadoop MapReduce
BigTable------>Hbase

2008年以后成为Apache的顶级项目

Hadoop特点：

扩容能力：在计算机集群内分配数据并完成计算任务，集群可以方便地扩展到数千个节点
低成本：通过廉价的机器组成服务器集群来分发以及处理数据
高效率：在节点之间动态并行的移动数据
可靠性：（副本）能够自动维护数据的多份复制，并且在任务失败后能够自动的重新部署（redeplay）计算任务

有很多发行版本，后面再来细说咯

优点：

Hadoop具有存储和处理数据的高可靠性
Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性。
Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性
Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配

缺点：

Hadoop不适用于低延迟数据访问
Hadoop不能高效存储大量小文件
Hadoop不支持用户写入并任意修改文件

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

YaoJwp CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

113万+: 周排名

8万+: 总排名

6170: 访问

: 等级

181: 积分

55: 粉丝

57: 获赞

3: 评论

57: 收藏

私信

关注

热门文章

分类专栏

最新评论

控制小数点位数
CSDN-Ada助手: 恭喜您发布了第8篇博客！控制小数点位数这个主题很实用，能帮助读者更好地处理数据和展示结果。希望您能继续分享更多关于数据处理和格式化的技巧，或者可以尝试探讨一些数据可视化的方法，让读者更直观地理解数据。期待您的下一篇作品！祝您持续创作，不断进步！
PageRank算法随机游走和迭代实现
CSDN-Ada助手: 恭喜用户在博客中分享了关于PageRank算法随机游走和迭代实现的内容！持续创作是非常值得鼓励的，希望用户可以继续分享更多关于算法实现的内容，或者可以尝试探讨一些实际应用中的案例分析，这样可以让读者更好地理解算法的实际运用。期待用户的下一篇精彩内容！
人工智能知识表示实验1
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。