python大数据工程_Python大数据工程师:10年开发大佬解析：大数据Hadoop10K以上，那么这个技能是必备的...

最新推荐文章于 2024-05-31 11:00:25 发布

weixin_39637589

最新推荐文章于 2024-05-31 11:00:25 发布

阅读量93

点赞数

文章标签： python大数据工程

Hadoop简介(前言)

Hadoop的名字来源名字于Doug Cutting儿子的玩具大象。2003-2004年，Google公开了部分GFS和Mapreduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制，一个微缩版：Nutch

Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份，Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目

hadoop的创始人及发展史

Hadoop创始人介绍：

Hadoop作者Doug cutting，就职Yahoo期间开发了Hadoop项目(之前已经开始实施)，目前在Cloudera 公司从事架构工作

Hadoop的发展史

2004年，Google发表了论文，向全世界介绍了MapReduce。 2005年初，Nutch的开发者在Nutch上有了一个可工作的MapReduce应用，到当年年中，所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。

在2006年2月，他们从Nutch转移出来成为一个独立的Lucene 子项目，称为Hadoop。

在2008年2月，雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

2008年1月，Hadoop已成为Apache顶级项目，证明它是成功的，是一个多样化、活跃的社区。通过这次机会，Hadoop成功地被雅虎之外的很多公司应用，如Last.fm、Facebook和《纽约时报》。

2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统。运行在一个910节点的群集，Hadoop在209秒内排序了1 TB的数据(还不到三分半钟)，击败了前一年的297秒冠军。同年11月，谷歌在报告中声称，它的MapReduce实现执行1TB数据的排序只用了68 秒。

在2009年5月，有报道宣称Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

Hadoop的思想之源来源于Google(是第一个遇到大量数据计算问题的公司)，大量的网页怎么存储、搜索算法(倒排索引的计算)，hadoop带给我们最关键的技术和思想是：GFS、Map-Reduce、Bigtable

Hadoop的特点

1.分布式存储系统HDFS (Hadoop Distributed File System )POSIX

分布式存储系统

提供了高可靠性、高扩展性和高吞吐率的数据存储服务

2.分布式计算框架MapReduce

分布式计算框架(计算向数据移动)

具有易于编程、高容错性和高扩展性等优点。

3.分布式资源管理框架YARN(Yet Another Resource Management)

负责集群资源的管理和调度

版本：1.x，2.x，3.x

总结：HDFS优点：1.高容性(数据自动保存多个副本、副本丢失后，自动恢复)

2.适合批处理(移动计算而非数据、数据位置暴露给计算框架Block偏移量)

3.适合大数据处理(GB 、TB 、甚至PB 级数据、百万规模以上的文件数量、10K+ 节点)

4.可构建在廉价机器上(通过多副本提高可靠性、提供了容错和恢复机制)

HDFS缺点:1.低延迟数据访问(比如毫秒级、低延迟与高吞吐率)

2.小文件存取(占用NameNode 大量内存、寻道时间超过读取时间)

3.并发写入、文件随机修改(一个文件只能有一个写者、仅支持append)

Hadoop核心

HDFS写流程

——Client：

切分文件Block

按Block线性和NN获取DN列表(副本数)

验证DN列表后以更小的单位流式传输数据-各节点，两两通信确定可用

Block传输结束后：DN向NN汇报Block信息、DN向Client汇报完成、Client向NN汇报完成

获取下一个Block存放的DN列表

。。。。。。

最终Client汇报完成

NN会在写流程更新文件状态

HDFS读流程

——Client：

和NN获取一部分Block副本位置列表

线性和DN获取Block，最终合并为一个文件

在Block副本列表中按距离择优选取

MD5验证数据完整性

安全模式

namenode启动的时候，首先将映像文件(fsimage)载入内存，并执行编辑日志(edits)中的各项操作。

一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。

此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示目录，显示文件内容等。写、删除、重命名都会失败，尚未获取动态信息)。

在此阶段Namenode收集各个datanode的报告，当数据块达到最小副本数以上时，会被认为是“安全”的，在一定比例(可设置)的数据块被确定为“安全”后，再过若干时间，安全模式结束

当检测到副本数不足的数据块时，该块会被复制直到达到最小副本数，系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。

Hadoop前景

BAT各自都在整合自己的产业链,未来大数据处理直接带动整个行业,前整个IT行业也趋向于大数据和商业智能(BI)，大数据带来的潜在商业价值将不可限量。

综上所述大家也可以看得到Hadoop一步步的走到的今天，Hadoop具有高容性、适合批处理、适合大数据处理、可构建在廉价机器上，必然在互联网和大数据的时代形成一个必然趋势。

SAS公司大中华区总裁吴辅世先生表示: "大数据的兴起促成了底层开源Hadoop技术的繁荣。我们也看到了Hadoop蕴含的潜在商机，它成本更为低廉、部署更为简单、能够存储文本等非结构化数据，可满足企业所需。目前，Hadoop在国内的应用愈加广泛,尤其是在电信业和金融业。SAS希望能够在Hadoop中引入强大分析技术 ,帮助企业从Hadoop部署中获取价值。

想必大家对hadoop有一个大致的了解了吧，那么小编就Hadoop整理了一些视频和文档资源，希望大家能够喜欢。

下面是小编为大家准备的一些视频资源，希望大家可以有所提升争做“领头羊”

获取方式：私信小编“学习”即可获取！关注小编将为大家带来更多的最新消息。