墨菲定律：大数据不会骗人（一）

最新推荐文章于 2025-05-12 22:26:22 发布

2301_77733819

最新推荐文章于 2025-05-12 22:26:22 发布

阅读量963

点赞数 15

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77733819/article/details/136658083

版权

一、介绍Hadoop生态圈相关组件

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。

1.HDFS（hadoop分布式文件系统）

是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。

client：切分文件，访问HDFS，与namenode交互，获取文件位置信息，与DataNode交互，读取和写入数据。

namenode：master节点，在hadoop1.x中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：slave节点，存储实际的数据，汇报存储信息给namenode

secondary namenode：辅助namenode，分担其工作量：定期合并fsimage和fsedits，推送给namenode；紧急情况下和辅助恢复namenode，但其并非namenode的热备。

2.mapreduce（分布式计算框架）

mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。

jobtracker：master节点，只有一个，管理所有作业，任务/作业的监控，错误处理等，将任务分解成一系列任务，并分派给tasktracker。

tacktracker：slave节点，运行 map task和reducetask；并与jobtracker交互，汇报任务状态

map task：解析每条数据记录，传递给用户编写的map（）并执行，将输出结果写入到本地磁盘（如果为map—only作业，则直接写入HDFS）。

reduce task：从map 它深刻地执行结果中，远程读取输入数据，对数据进行排序，将数据分组传递给用户编写的reduce函数执行。

3. hive（基于hadoop的数据仓库）

由Facebook开源，最初用于解决海量结构化的日志数据统计问题。hive定于了一种类似sql的查询语言（hql）将sql转化为mapreduce任务在hadoop上执行。

4.hbase（分布式列存数据库）

hbase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，hbase采用了bigtable的数据模型：增强了稀疏排序映射表（key/value）。其中，键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问，同时，hbase中保存的数据可以使用mapreduce来处理，它将数据存储和并行计算完美结合在一起。

5.zookeeper（分布式协作服务）

解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等

6.sqoop（数据同步工具）

sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据。

数据的导入和导出本质上是mapreduce程序，充分利用了MR的并行化和容错性

7.pig（基于hadoop的数据流系统）

定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。

通常用于离线分析。

8.mahout（数据挖掘算法库）

mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是，mahout还包含了数据的输入/输出工具，与其他存储系统（如数据库，mongoDB或Cassandra）集成等数据挖掘支持架构。

最低0.47元/天解锁文章

博客等级

码龄2年

5
原创

79
点赞

92
收藏

57
粉丝

关注

私信

热门文章

最新评论

搭建单机伪分布式环境
CSDN-Ada助手: 恭喜用户成功搭建单机伪分布式环境！持续创作非常值得鼓励，希望您能继续分享更多关于搭建分布式环境的经验和技巧。下一步可以考虑深入探讨分布式系统的优化和调优方法，或者分享一些实际应用场景下的案例分析，期待您的更多精彩内容！愿您在技术之路上不断进步，共同成长！
墨菲定律：大数据不会骗人（二）
CSDN-Ada助手: 恭喜您持续创作，这篇关于墨菲定律和大数据的博客内容十分有趣！建议未来可以结合更多实例或案例来说明大数据不会骗人的原理，这样读者可以更直观地理解您的观点。期待您的下一篇作品，继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
墨菲定律：大数据不会骗人（一）
CSDN-Ada助手: 很棒的博客！对于大数据的处理，Hadoop 确实是一个非常重要的工具，而你对于 HDFS 和 Mapreduce 的介绍也让我受益匪浅。除了这些内容，你或许可以继续探讨一下 Hadoop 中的其他组件，比如 Spark、Hive、HBase 等，它们也都是大数据处理中非常重要的一部分。希望你能继续分享更多关于大数据方面的知识，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。