目录
1、Hadoop 快速入门
1.1、数据
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。
数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字, 称为数字数据。
在计算机系统中,数据以二进制信息单元 0,1 的形式表示。
1.2、大数据
1.2.1、概念
指的是传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集
最基本的衡量:大小
数据量最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes(普通用户数据级别)
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB(企业级数据级别)
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB(全球数据总量级别)
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
据国际数据公司(IDC)统计,全球数据总量预计 2020 年达到 44ZB,中国数据量将达到 8060EB, 占全球数据总量的 18%
1.2.2、大数据特点
容量大,种类多,速度快,价值高
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息
新浪微博,3 亿用户,每天上亿条微博
朋友圈,8 亿用户,每天亿级别朋友圈
种类(Variety):数据类型的多样性,包括文本,图片,视频,音频
结构化数据:可以用二维数据库表来抽象,抽取数据规律
半结构化数据:介于结构化和非结构化之间,主要指 XML,HTML 等,也可称非结构化
非结构化数据:不可用二维表抽象,比如图片,图像,音频,视频等
速度(Velocity):指获得数据的速度以及处理数据的速度
数据的产生呈指数式爆炸式增长
处理数据要求的延时越来越低
价值(Value):合理运用大数据,以低成本创造高价值
综合价值大,隐含价值大
单条数据记录无价值,无用数据多
总结:
1、数据量大,处理难度大,但是蕴含价值也大
2、数据种类多样,更加个性化,针对不同数据源进行多样化的方式处理,结果更精确
3、要求对数据进行及时处理,追求更极致更完善的用户体验
4、数据成为新的资源,掌握数据就掌握了巨大的财富
1.2.3、大数据价值
在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数 据集合并后进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩