python大数据工程_Python大数据工程师:10年开发大佬解析:大数据Hadoop10K以上,那么这个技能是必备的...

Hadoop简介(前言)

Hadoop的名字来源名字于Doug Cutting儿子的玩具大象。2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch

Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目

hadoop的创始人及发展史

Hadoop创始人介绍:

Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目(之前已经开始实施),目前在Cloudera 公司从事架构工作

Hadoop的发展史

2004年,Google发表了论文,向全世界介绍了MapReduce。 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。

在2006年2月,他们从Nutch转移出来成为一个独立的Lucene 子项目,称为Hadoop。

在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的,是一个多样化、活跃的社区。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Last.fm、Facebook和《纽约时报》。

2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的群集,Hadoop在209秒内排序了1 TB的数据(还不到三分半钟),击败了前一年的297秒冠军。同年11月,谷歌在报告中声称,它的MapReduce实现执行1TB数据的排序只用了68 秒。

在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

Hadoop的思想之源来源于Google(是第一个遇到大量数据计算问题的公司),大量的网页怎么存储、搜索算法(倒排索引的计算),hadoop带给我们最关键的技术和思想是:GFS、Map-Reduce、Bigtable

Hadoop的特点

1.分布式存储系统HDFS (Hadoop Distributed File System )POSIX

分布式存储系统

提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

2.分布式计算框架MapReduce

分布式计算框架(计算向数据移动)

具有 易于编程、高容错性和高扩展性等优点。

3.分布式资源管理框架YARN(Yet Another Resource Management)

负责集群资源的管理和调度

版本:1.x,2.x,3.x

总结:HDFS优点:1.高容性(数据自动保存多个副本、副本丢失后,自动恢复)

2.适合批处理(移动计算而非数据、数据位置暴露给计算框架Block偏移量)

3.适合大数据处理(GB 、TB 、甚至PB 级数据、百万规模以上的文件数量、10K+ 节点)

4.可构建在廉价机器上(通过多副本提高可靠性、提供了容错和恢复 机制)

HDFS缺点:1.低延迟数据访问(比如毫秒级、低延迟与高吞吐率)

2.小文件存取(占用NameNode 大量内存、寻道时间超过读取时间)

3.并发写入、文件随机修改(一个文件只能有一个写者、仅支持append)

Hadoop核心

HDFS写流程

——Client:

切分文件Block

按Block线性和NN获取DN列表(副本数)

验证DN列表后以更小的单位流式传输数据-各节点,两两通信确定可用

Block传输结束后:DN向NN汇报Block信息、DN向Client汇报完成、Client向NN汇报完成

获取下一个Block存放的DN列表

。。。。。。

最终Client汇报完成

NN会在写流程更新文件状态

HDFS读流程

——Client:

和NN获取一部分Block副本位置列表

线性和DN获取Block,最终合并为一个文件

在Block副本列表中按距离择优选取

MD5验证数据完整性

安全模式

namenode启动的时候,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。

一旦在内存中成功建立文件系统元数据的映射,则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。

此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示目录,显示文件内容等。写、删除、重命名都会失败,尚未获取动态信息)。

在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的, 在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束

当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数,系统中数据块的位置并不是由namenode维护的,而是以块列表形式存储在datanode中。

Hadoop前景

BAT各自都在整合自己的产业链,未来大数据处理直接带动整个行业,前整个IT行业也趋向于大数据和商业智能(BI),大数据带来的潜在商业价值将不可限量。

综上所述大家也可以看得到Hadoop一步步的走到的今天,Hadoop具有高容性、适合批处理、适合大数据处理、可构建在廉价机器上,必然在互联网和大数据的时代形成一个必然趋势。

SAS公司大中华区总裁吴辅世先生表示: "大数据的兴起促 成了底层开源Hadoop技术的繁荣。我们也看到了Hadoop蕴含的潜在商机,它成本更为低廉、部署更为简单、能够存储文本等非结构化数据,可满足企业所需。目前,Hadoop在国内的应用愈加广泛,尤其是在电信业和金融业。SAS希望能够在Hadoop中引入强大分析技术 ,帮助企业从Hadoop部署中获取价值。

想必大家对hadoop有一个大致的了解了吧,那么小编就Hadoop整理了一些视频和文档资源,希望大家能够喜欢。

下面是小编为大家准备的一些视频资源,希望大家可以有所提升争做“领头羊”

获取方式:私信小编“学习”即可获取!关注小编将为大家带来更多的最新消息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值