Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF--高清晰



一、下载地址(永久有效)



百度云盘下载(公开永久):Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF高清晰

CSDN积分下载:Hadoop权威指南(第3版)+高清晰



二、数据的存储和分析


我们遇到的问题很简单:在硬盘存储容量多年来不断提升的同时,访问速度(硬盘数据读取速度)

却没有与时俱进。1990年,一个普通的硬盘可以存储1370MB数据,传输速度为4.4MB/s,因此只需要5分钟就可以读完整个硬盘中的数据。20年过去了,1TB硬盘已然成为主流,但其数据传输速度约为100MB/s,读取整个硬盘中的数据至少得话2.5个小时。

读完整个硬盘中的数据需要更长时间,那写入数据就不用说了。


因此,我们可以试想,能不能有100个硬盘,每个硬盘存储1%的数据,并行读取,如果这样能做到的话,那么不到两分钟就可以读完所有的数据。

但这里会存在一些问题:


1.其中一个硬盘出现故障了怎么办?

2.如何考虑分布式硬盘数据的读取和数据分析的正确性呢?

...


不用担心这些问题好吧,Hadoop帮我们一一来实现。



三、什么是Hadoop


简而言之,Hadoop为我们提供了一个可靠的共享存储和分析系统。HDFS(Hadoop Distributed FileSysterm)实现数据的存储,MapReduce(计算由map和reduce两部分组成)实现数据的分析和处理。虽然Hadoop还有其他功能,但HDFS和MapReduce是它的核心价值。



其余内容,请自行学习,学习使人快乐!

  • 6
    点赞
  • 8
    收藏
  • 打赏
    打赏
  • 0
    评论
这本书很全,是Hadoop的圣经级教材,不过看起来挺累。 内容简介 Discover how Apache Hadoop can unleash the power of your data. This comprehensive resource shows you how to build and maintain reliable, scalable, distributed systems with the Hadoop framework -- an open source implementation of MapReduce, the algorithm on which Google built its empire. Programmers will find details for analyzing datasets of any size, and administrators will learn how to set up and run Hadoop clusters. This revised edition covers recent changes to Hadoop, including new features such as Hive, Sqoop, and Avro. It also provides illuminating case studies that illustrate how Hadoop is used to solve specific problems. Looking to get the most out of your data? This is your book. Use the Hadoop Distributed File System (HDFS) for storing large datasets, then run distributed computations over those datasets with MapReduce Become familiar with Hadoop’s data and I/O building blocks for compression, data integrity, serialization, and persistence Discover common pitfalls and advanced features for writing real-world MapReduce programs Design, build, and administer a dedicated Hadoop cluster, or run Hadoop in the cloud Use Pig, a high-level query language for large-scale data processing Analyze datasets with Hive, Hadoop’s data warehousing system Take advantage of HBase, Hadoop’s database for structured and semi-structured data Learn ZooKeeper, a toolkit of coordination primitives for building distributed systems "Now you have the opportunity to learn about Hadoop from a master -- not only of the technology, but also of common sense and plain talk."

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:酷酷鲨 设计师:CSDN官方博客 返回首页
评论

打赏作者

appleyk

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值