Hadoop的基本介绍

最新推荐文章于 2024-07-19 15:07:53 发布

大三岁896

最新推荐文章于 2024-07-19 15:07:53 发布

阅读量807

点赞数 21

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ckbyte/article/details/136539982

版权

本文介绍了Hadoop架构，包括其核心组件HDFS和YARN，以及MapReduce等工具。Hadoop以其高可靠性、扩展性、高效性和低成本等特点，广泛应用于大数据存储、日志处理、ETL、机器学习和搜索引擎等领域。它不适合实时在线事务处理，而是专为大规模数据分析设计。

摘要由CSDN通过智能技术生成

一、Hadoop的介绍：

hadoop是一个架构（想法）用来处理和存储海量数据的；

如图：

HDFS：分布式存储系统。

YARN：任务调度和集群资源管理的框架。

MapReduce：一种基于Hadoop YARN的大型数据集并行计算处理系统。

其它模块，还有一些hadoop生态圈中的辅助工具，主要用于特定目的或者功能等…，如：

Hibase：是基于一个分布式的、面向列的开源数据库。

Hive：是基于Hadoop的一个数据仓库工具。

Pig：运行在Hadoop上，是对于大型数据集进行分析和评估的平台。

Spark：Hadoop数据快速通用的计算引擎。

ZooKeeper：一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件。

等等..............

每一个模块有自己独立的功能，而模块之间又有相互的关联。通常我们所说的hadoop指的是hadoop的一个生态圈。

hadoop的优势：

高可靠性。Hadoop设计时考虑了数据存储和处理的高可靠性，通过维护多个数据副本来实现，即使某个节点发生故障，数据仍然可以从其他副本中获取，确保任务继续运行。

高扩展性。Hadoop能够在多台机器组成的集群上进行分布式存储和计算，可以轻松地添加或移除节点，从而实现横向扩展，适应大规模数据处理的需求。

高效性。Hadoop能够在多个节点之间动态地移动数据并保证节点间的动态平衡，从而实现高效的数据处理。
低成本。Hadoop可以运行在普通商用服务器上，不需要高端配置，因此大大降低了硬件成本。

高容错性。Hadoop的分布式文件系统（HDFS）设计时就考虑了数据丢失和节点故障的情况，自动保存多个副本，并在任务失败时自动重新分配任务到其他节点。

可构建在廉价机器上。Hadoop对机器配置的要求不高，适合在成本较低的硬件上部署。

支持多种编程语言。Hadoop支持使用Java、C++等多种语言进行编程，提供了丰富的开发工具和生态系统。

支持PB级数据。Hadoop能够处理非常庞大的数据量，适合处理超大数据集的应用程序。

例如：比如说我要存储很大的数据和处理数据，那么Hadoop就是存储海量数据和分析海量数据的工具。（它的两个核心组件HDFS（分布式文件存储系统）和MapReduce（任务调度和集群资源管理的框架）

前者是：用来引入存放文件元数据信息的服务器（Namenode）和实际存放数据的服务器（Datanode），对数据进行分布式储存和读取。

后者是：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。）

*注：（map和reduce是两个函数）

map()是将传入的函数依次作用到序列的每个元素，每个元素都是独自被函数“作用”一次。

reduce()是将传人的函数作用在序列的第一个元素得到结果后，把这个结果继续与下一个元素作用（累积计算）。

二、Hadoop的作用

主要：

大数据分布式存储处理：

日志处理；

ETL（Extract-Transform-Load）:将数据抽取到数据库

机器学习；

搜索引擎:Hadoop + lucene（lucene是一个全文搜索引擎包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎）实现

数据挖掘（目前比较流行的广告推荐，个性化广告推荐）

Hadoop是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

关注

21
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的基本介绍

本文基本介绍了Hadoop
复制链接

扫一扫

大三岁896 CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

204万+: 周排名

18万+: 总排名

1621: 访问

: 等级

53: 积分

29: 粉丝

30: 获赞

4: 评论

35: 收藏

私信

关注

热门文章

最新评论

伪分布式配置
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
伪分布式配置
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
伪分布式配置
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
伪分布式配置
CSDN-Ada助手: 非常感谢您分享这篇关于伪分布式配置的博文！看得出您对Hadoop的配置有很深入的了解。希望您能继续分享更多关于大数据技术方面的知识和经验。除了配置路径和解压缩命令，您可能还可以介绍一下Hadoop的基本架构和核心组件，比如NameNode、DataNode等，这些对于理解Hadoop的工作原理非常重要。希望您在以后的博文中能够进一步深入探讨，让更多人受益。期待您的下一篇作品！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hadoop的基本介绍
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618183503。

大家在看

最新文章

伪分布式配置

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。