Hadoop 框架学习笔记
大数据技术解决什么问题?
主要解决海量数据存储和计算。
Hadoop的广义和狭义之分?
狭义:Hadoop 由三部分组成:HDFS:分布式文件系统存储 MapReduce:分布式离线计算框架 YARN:资源调度框架
广义:不仅是Hadoop框架,之外还有周边框架,比如 Flume:日志数据采集;Sqoop:关系型数据库的采集、导出;Hive:深度依赖Hadoop框架完成计算(SQL) Hbase:大数据领域的数据库
广义的Hadoop是一个大数据生态圈。
大数据简介
大数据的定义
大数据是指无法在一定时间范围内用常规的软件工具进行捕捉,管理和处理数据集合,是需要新处理方法,才能有更强的决策力、洞察发现力和流程化能力的海量、高增长率和多样化的信息资产。
大数据的特点
大数据的特点可以用IBM 曾经提出的 “5V”来描述,如下:
Volume Velocity Variety Veracity Value
大量
采集、存储和计算的数据量都非常大。
计算机存储单位一般用B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB来表示,换算关系:
1GB = 1024MB
1TB = 1024GB
1PB = 1024TB
1EB = 1024PB
1ZB = 1024EB
1YB = 1024ZB
1BB = 1024YB
1NB = 1024BB
1DB = 1024NB
以PB为例,PB级别数据量有多大?是怎样的一个概念?
假如手机播放MP3每分钟1MB,而1首歌曲的平均时长为4分钟,那么1PB存量的歌曲可以存放2000年。
1PB 相当于50%的全美学术研究图书馆书咨询内容。
(1)1986年,全球只有0.02EB也就是约21000TB的数据量
(2)2007 年,全球也就280EB,也就是约300000000的数据量,翻了14000倍
(3&#x