hadoop的基础理解

最新推荐文章于 2024-08-06 21:32:10 发布

2301_76553988

最新推荐文章于 2024-08-06 21:32:10 发布

阅读量272

点赞数 1

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76553988/article/details/138129121

版权

本文介绍了Hadoop分布式文件系统（HDFS）的副本机制，通过将文件复制到多个节点以提高数据冗余和可靠性。同时，讨论了ApacheHive如何利用HDFS并结合SQL查询进行大规模分布式数据处理，强调了Hive的易用性和MapReduce的强大支持。

摘要由CSDN通过智能技术生成

HDFS的副本机制

HDFS的副本机制，HDFS上的每一份文件，默认是存储3个副本。一般来说，这三个副本会存放在多个地方，比如说同一个机房的不同机架，不同机房的机架，避免意外发生遭到团灭。在写入数据时，如果写入的DataNode挂掉，则整个任务失败；读取数据时，如果读取的DataNode挂掉，则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。

Apache Hive是一款分布式SQL计算的工具，其主要功能是：将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力，写的是SQL，运行的是MapReduce。

Apache Hive的基础理解：

Hive的优点：

1.操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

2.底层执行MapReduce，可以完成分布式海量数据的SQl处理

Apache Hive 的基础架构：

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hadoop的基础理解

HDFS的副本机制，HDFS上的每一份文件，默认是存储3个副本。一般来说，这三个副本会存放在多个地方，比如说同一个机房的不同机架，不同机房的机架，避免意外发生遭到团灭。读取数据时，如果读取的DataNode挂掉，则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。Apache Hive是一款分布式SQL计算的工具，其主要功能是：将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力，写的是SQL，运行的是MapReduce。
复制链接

扫一扫

博客等级

码龄1年

3
原创

14
点赞

5
收藏

12
粉丝

关注

私信

热门文章

最新评论

hadoop的基础理解
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
分布式SQL计算Hive实操
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
分布式SQL计算Hive实操
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop大数据入门学习
CSDN-Ada助手: 恭喜您开始了博客创作，标题为“hadoop大数据入门学习”听起来非常有趣！在大数据领域探索是一项很有挑战性的任务，希望您能够坚持学习并深入了解hadoop技术。接下来，您可以尝试分享一些学习hadoop过程中遇到的困难和解决方法，或者分享一些实际案例或项目经验，这些内容将会让您的博客更加丰富和有吸引力。加油！期待您更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。