大数据
辛苦整理,未经允许,严禁转载!
1.特点(6V)
- Volume:数据体量大,数据越来越多。大公司处理的数据量基本上每天至少在TB级别左右。
- Variaty:数据的种类和样式多,数据可以划分为结构化,半结构化,非结构化数据。
- Velocity:数据量的增长速度是越来越快的。
- Varecity: 数据的价值密度低。(有用的数据越来越少)
- Value:数据的真实性,越来越多的无用数据
- Valence:最近两年加入的数据的连通性,数据之间的关系
- 动态性
- 可视化
- 合法性(隐私性)
大数据的一些术语:杀生,大数据杀熟,用的旧的一些数据来分析你行为。
人工智能:模型 + 训练
5G:IT界推动VR开始发展,试水区,医疗事业
2.包含技术点
- 数据收集
- 数据存储
- 数据清洗 — ETL
- 数据分析
- 离线分析
- 实时分析
- 数据挖掘
重点3,4,5
Hadoop
1.概述
- Hadoop是Apache提供的一套开源的,可扩展/可伸缩的,可靠地用于分布式计算的框架
- 市面上,不同的厂商针对Hadoop提供了不同的商用版本:Cloudera的CDH等
- Apache官网上提供的Hadoop版本比较混乱
2.发展历程
- 创始人:Doug Cutting(核心人物)和Mike Caferalla
- 在2002年,doug和mike设计搜索引擎Nutch,爬取了全网10亿个网页的数据,考虑如何存储这些数据
- 在2003年,Google发表了一篇论文《The Google FileSystem》(GFS)阐述了分布式存储的原理,但是Google并没有对外公开该框架的使用。Doug就根据这篇论文实现了NDFS(Nutch Distributed FileSystem)
- 在2004年,Google发表了一篇论文《The Google MapReduce》阐述了理想分布式计算的思想,同样Google依然没有对外公开框架,Doug又根据这篇论文实现了Nutch中的MapReduce
- 在Nuch8.0版本的时候,将DNFS和MapReduce从Nutch中分离出来形成了Hadoop,同时NDFS更名为HDFS
- 在2007,Doug从原公司离职,同年11月,Doug入职了Yahoo
- 在Yahoo工作期间,又参与实现了HBase,Pig等
- Yahoo将Hadoop,HBase,Pig等框架都贡献给了Apache
3.版本(我们使用2.7)
Hadoop