(自学大数据系列)第一章:初识Hadoop

最新推荐文章于 2023-12-29 19:30:38 发布

selfond

最新推荐文章于 2023-12-29 19:30:38 发布

阅读量185

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/selfond/article/details/80765161

版权

Hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、数据现状

2006年数字世界(digital universe)项目统计得出全球数据总量为0.18ZB，2011年将达到1.8ZB

（1ZB = 1 000EB = 1 000 000PB = 1 000 000 000TB）数据增长速度也在加快。

2、数据的存储

数据读取速度慢：在硬盘容量不断提升的同时，数据的读取速度却没有与时俱进，目前数据的读取速度也仅为100MB/S。

解决办法：可以把数据存放在多个硬盘中，每个硬盘存储1% 的数据，读取数据时，100个job同时运行，时间消耗就大大的缩短。

Hadoop采取了并行读取数据的方法来减少时间，单同时也要解决并行读写产生的问题：

1）、硬件故障，HDFS（Hadoop Distributed File System）要求文件存储时一式三份，分别存储在不同的硬件设备，当其中一个硬件发生故障时，会从其他副本中获取数据。

2）、做数据分析时，很多数据都是相互依赖使用的。Hadoop开发出了MapReduce编程模式，该模型抽象出这些硬盘上读取文件的内容并将其转化为一个数据集(由键值对组成)的计算。

Hadoop提供了可靠的共享存储和分析系统，HDFS实现数据存储，MapReduce实现数据的分析和处理。这两个是Hadoop的核心功能。

产生MapReduce的原因是因为硬盘发展的一个趋势造成：

1）、传输效率的提升效果远大于减少寻址时间产生的效果

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

selfond CSDN认证博客专家 CSDN认证企业博客

码龄14年

9: 原创

26万+: 周排名

159万+: 总排名

3万+: 访问

: 等级

373: 积分

11: 粉丝

35: 获赞

11: 评论

63: 收藏

私信

关注

热门文章

分类专栏

scala 4篇
Spark 4篇
sparkSql 1篇
Hadoop
python 3篇

最新评论

DolphiScheduler平台上运行spark程序时，外部参数设置
CSDN-Ada助手: 非常感谢您的分享，这篇博客对我们很有帮助。我觉得接下来可以写一篇关于如何在DolphiScheduler平台上优化Spark程序性能的技术文章，对于想要在分布式计算领域深入学习的读者们会非常有帮助。期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
第一篇：数据库需求与ER建模
xianlindoufu: 作者大大，你的图都没了。还是我没权限看？
java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive解决办法
m0_53514542: 我是在spark-shell里调试，使用spark.sql还是错的，org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hive
java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive解决办法
橘子nana: 解决了，上面操作完还报错的话，可以看下是不是代码里指定了错误的hadoop环境变量
java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive解决办法
橘子nana: 也没解决主要是之前都好好的今天突然调试失败了可能还有其他原因

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。