Hadoop简介(前言)
Hadoop的名字来源名字于Doug Cutting儿子的玩具大象。2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch
Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目
hadoop的创始人及发展史
Hadoop创始人介绍:
Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目(之前已经开始实施),目前在Cloudera 公司从事架构工作
Hadoop的发展史
2004年,Google发表了论文,向全世界介绍了MapReduce。 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。
在2006年2月,他们从Nutch转移出来成为一个独立的Lucene 子项目,称为Hadoop。
在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的,是一个多样化、活跃的社区。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Last.fm、Facebook和《纽约时报》。
2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的群集,Hadoop在209秒内排序了1 TB的数据(还不到三分半钟),击败了前一年的297秒冠军。同年11月,谷歌在报告中声称,它的MapReduce实现执行1TB数据的排序只用了68 秒。
在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
Hadoop的思想之源来源于Google(是第一个遇到大量数据计算问题的公司),大量的网页怎么存储、搜索算法(倒排索引的计算),hadoop带给我们最关键的技术和思想是:GFS、Map-Reduce、Bigtable
Hadoop的特点
1.分布式存储系统HDFS (Hadoop Distributed File System )POSIX
分布式存储系统
提供了 高可靠性、高扩展性和高吞吐率的数据存储服务
2.分布式计算框架MapReduce
分布式计算框架(计算向数据移动)
具有 易于编程、高容错性和高扩展性等优点。
3.分布式资源管理框架YARN(Yet Another Resource Management)
负责集群资源的管理和调度
版本:1.x,2.x,3.x
总结:HDFS优点:1.高容性(数据自动保存多个副本、副本丢失后,自动恢复)
2.适合批处理(移动计算而非数据、数据位置暴露给计算框架Block偏移量)
3.适合大数据处理(GB 、TB 、甚至PB 级数据、百万规模以上的文件数量、10K+ 节点)
4.可构建在廉价机器上(通过多副本提高可靠性、提供了容错和恢复 机制)
HDFS缺点:1.低延迟数据访问(比如毫秒级、低延迟与高吞吐率)
2.小文件存取(占用NameNode 大量内存、寻道时间超过读取时间)
3.并发写入、文件随机修改(一个文件只能有一个写者、仅支持append)
Hadoop核心
HDFS写流程
——Client:
切分文件Block
按Block线性和NN获取DN列表(副本数)
验证DN列表后以更小的单位流式传输数据-各节点,两两通信确定可用
Block传输结束后:DN向NN汇报Block信息、DN向Client汇报完成、Client向NN汇报完成
获取下一个Block存放的DN列表
。。。。。。
最终Client汇报完成
NN会在写流程更新文件状态
HDFS读流程
——Client:
和NN获取一部分Block副本位置列表
线性和DN获取Block,最终合并为一个文件
在Block副本列表中按距离择优选取
MD5验证数据完整性
安全模式
namenode启动的时候,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。
一旦在内存中成功建立文件系统元数据的映射,则创建一个新的fsimage文件(这个操作不需要SecondaryNameNode)和一个空的编辑日志。
此刻namenode运行在安全模式。即namenode的文件系统对于客服端来说是只读的。(显示目录,显示文件内容等。写、删除、重命名都会失败,尚未获取动态信息)。
在此阶段Namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被认为是“安全”的, 在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束
当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数,系统中数据块的位置并不是由namenode维护的,而是以块列表形式存储在datanode中。
Hadoop前景
BAT各自都在整合自己的产业链,未来大数据处理直接带动整个行业,前整个IT行业也趋向于大数据和商业智能(BI),大数据带来的潜在商业价值将不可限量。
综上所述大家也可以看得到Hadoop一步步的走到的今天,Hadoop具有高容性、适合批处理、适合大数据处理、可构建在廉价机器上,必然在互联网和大数据的时代形成一个必然趋势。
SAS公司大中华区总裁吴辅世先生表示: "大数据的兴起促 成了底层开源Hadoop技术的繁荣。我们也看到了Hadoop蕴含的潜在商机,它成本更为低廉、部署更为简单、能够存储文本等非结构化数据,可满足企业所需。目前,Hadoop在国内的应用愈加广泛,尤其是在电信业和金融业。SAS希望能够在Hadoop中引入强大分析技术 ,帮助企业从Hadoop部署中获取价值。
想必大家对hadoop有一个大致的了解了吧,那么小编就Hadoop整理了一些视频和文档资源,希望大家能够喜欢。
下面是小编为大家准备的一些视频资源,希望大家可以有所提升争做“领头羊”
获取方式:私信小编“学习”即可获取!关注小编将为大家带来更多的最新消息。