大数据技术原理与应用——第2章（知识点+课后题）

L__iiiii

已于 2024-05-26 23:44:26 修改

阅读量1.2k

点赞数 40

文章标签：大数据笔记经验分享其他

于 2024-05-25 10:53:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/siri__iiiii/article/details/139193769

版权

参考：大数据技术原理与应用（第3版）林子雨编著

目录

Hadoop发展简史

Hadoop的特性

Hadoop在企业中的架构

Hadoop的版本

选择Hadoop版本的考虑因素：

Hadoop生态系统

课后习题（书后习题）

1. 试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系

2. 试述Hadoop具有哪些特性

3. 试述Hadoop在各个领域的应用情况

4. 试述Hadoop生态系统以及每个部分的具体功能

5. 配置Hadoop时，Java的路径JAVA_HOME是在哪一个配置文件中进行设置的?

6. 所有节点的HDFS路径是通过fs.default.name来设置的，请问它是在哪个配置文件中设置的？

7. 试列举单机模式和伪分布模式的异同点

8. Hadoop伪分布式运行启动后所具有的进程都有哪些？

Hadoop简介

Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中

Hadoop的核心是分布式文件系统（HDFS）、MapReduce

HDFS是针对谷歌文件系统（GFS）的开源实现

MapReduce是针对谷歌MapReduce的开源实现

Hadoop发展简史

Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库

2004年，Apache Lucene项目模仿GFS开发了NDFS，也是HDFS的前身

2009年5月，Hadoop将1TB数据排序时间缩短到62秒，从此名声大噪，发展成大数据时代最具影响力的开源分布式开发平台

Hadoop的特性

1. 高可靠性

2. 高效性

3. 高可扩展性

4. 高容错性

5. 成本低

6. 运行在Linux操作系统上

7. 支持多种编程语言

Hadoop在企业中的架构

Hadoop的版本

第一代：包含0.20.x、0.21.x和0.22.x三大版本

第二代：包含（HDFS Federation、YARN（区分1、2代））

2008年，Cloudera成为第一个Hadoop商业化公司，并在2009年推出了第一个Hadoop发行版。

选择Hadoop版本的考虑因素：

是否开源（是否免费）
是否有稳定版
是否经实践检验
是否有强大的社会支持

Hadoop生态系统

Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储。

Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReduce平台查询大型半结构化数据集。

Mahout是开源项目，提供一些可供扩展的机器学习领域经典算法的实现，旨在帮助开发人员更方便快捷地创建智能应用程序。

ZooKeeper是针对谷歌Chubby的一个开源项目，是高效和可靠的协同工作系统。

Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。

Sqoop主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。

Ambari支持Hadoop集群的安装、部署、配置和管理。

课后习题（书后习题）

1. 试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系

Hadoop的核心是分布式文件系统（HDFS）、MapReduce

HDFS是针对谷歌文件系统（GFS）的开源实现

MapReduce是针对谷歌MapReduce的开源实现

2. 试述Hadoop具有哪些特性

1. 高可靠性

2. 高效性

3. 高可扩展性

4. 高容错性

5. 成本低

6. 运行在Linux操作系统上

7. 支持多种编程语言

3. 试述Hadoop在各个领域的应用情况

医疗健康：医疗行业产生的数据包括患者病历、基因序列、药物研发数据等，量大且复杂。Hadoop平台帮助医疗机构整合和分析这些数据，支持临床决策支持、疾病预测模型开发、个性化医疗方案设计等，推动精准医疗的发展。
零售与电子商务：在零售和电商领域，Hadoop被用来进行销售预测、库存管理、顾客购买行为分析、个性化推荐等。通过分析顾客历史购买数据、浏览行为等，企业能够提供更加个性化的购物体验，提升转化率和客户满意度。
政府与公共服务：政府机构利用Hadoop处理人口普查数据、公共安全数据、城市规划数据等，用于政策制定、公共服务优化和社会治理。例如，分析交通数据改善城市交通流，利用气象数据预测自然灾害等。

4. 试述Hadoop生态系统以及每个部分的具体功能

HDFS作为底层的数据存储系统

HBase是一个提供高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库

Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储。

Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReduce平台查询大型半结构化数据集。

Mahout是开源项目，提供一些可供扩展的机器学习领域经典算法的实现，旨在帮助开发人员更方便快捷地创建智能应用程序。

ZooKeeper是针对谷歌Chubby的一个开源项目，是高效和可靠的协同工作系统。

Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。

Sqoop主要用来在Hadoop和关系数据库之间交换数据，可以改进数据的互操作性。

Ambari支持Hadoop集群的安装、部署、配置和管理。

5. 配置Hadoop时，Java的路径JAVA_HOME是在哪一个配置文件中进行设置的?

配置Hadoop时，Java的路径信息JAVA_HOME是在hadoop-env.sh配置文件中进行设置的。这个文件位于Hadoop安装目录的conf目录下，用于设置Hadoop运行所需的环境变量，包括指定Java的安装路径。

6. 所有节点的HDFS路径是通过fs.default.name来设置的，请问它是在哪个配置文件中设置的？

所有节点的HDFS路径通过fs.default.name进行设置，这个配置是在core-site.xml文件中进行的。这个文件也是位于Hadoop的配置目录下，用于定义Hadoop核心服务的全局配置属性，包括HDFS的默认文件系统的URI。

7. 试列举单机模式和伪分布模式的异同点

相同点：

• 都可以在单个节点上运行Hadoop。

• 都可以用于开发和测试Hadoop应用程序。

不同点：

• 单机模式：所有的Hadoop守护进程都在同一个JVM中运行，用于简单的测试和开发。

• 伪分布模式：Hadoop守护进程运行在不同的JVM中，模拟一个小型的分布式集群环境，用于更全面的测试。

8. Hadoop伪分布式运行启动后所具有的进程都有哪些？

NameNode：管理文件系统的命名空间。

DataNode：存储实际的数据块。

Secondary NameNode：辅助NameNode，定期合并编辑日志和文件系统镜像。

ResourceManager：负责集群资源的管理和作业调度。

NodeManager：运行在每个节点上的服务，负责容器管理、监控和日志收集。

WebAppProxy：提供对YARN Web界面的安全访问代理。

关注

40
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据技术原理与应用——第2章（知识点+课后题）

大数据技术原理与应用——第2章（知识点+课后题）参考：大数据技术原理与应用（第3版）林子雨编著第二章大数据处理架构Hadoop
复制链接

扫一扫

L__iiiii CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

108万+: 周排名

7万+: 总排名

7532: 访问

: 等级

337: 积分

219: 粉丝

237: 获赞

2: 评论

97: 收藏

私信

关注

热门文章

最新评论

大数据技术原理与应用——第2章（知识点+课后题）
m0_73604292: 哥们更快点
信息技术导论——课后题(第一章)
CSDN-Ada助手: 恭喜用户在信息技术导论领域坚持创作，第四篇博客的题目也很有深度。希望用户在未来的创作中可以继续分享更多有趣的知识和见解，或许可以尝试添加一些实际案例或个人体会，以丰富内容，期待用户更多精彩的文章呈现！祝用户创作愉快！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
大数据技术原理与应用——第1章（知识点+课后题）
CSDN-Ada助手: 恭喜你开始了博客创作，这是一个非常好的开始！大数据技术原理与应用是一个非常热门的话题，希望你能够深入挖掘其中的知识点，为读者提供更多有价值的内容。下一步可以考虑结合实际案例来分析大数据技术在不同领域的应用，这样可以让读者更加直观地理解这些知识点。加油！期待你更多优质的博文！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
数据科学理论与实践——期末复习（简单版）
CSDN-Ada助手: 非常感谢您分享这篇关于数据科学理论与实践的博文，期末复习的简单版内容一定对大家都很有帮助。希望您能继续保持创作的热情，分享更多有益的内容给大家学习参考。另外，在学习数据科学的过程中，掌握数据清洗、数据可视化、机器学习等技能也是非常重要的，希望您在后续的文章中能够涉及到这些方面的内容，让读者们能够更全面地了解数据科学的世界。期待您更多的精彩作品！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据科学理论与实践——期末复习（简单版）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618742646。

大家在看

Redis系列命令更新--Redis字符串命令 388

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

L__iiiii 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。