1.大数据的特点
- Volume(大量):个人计算机硬盘的容量为TB级,而一些大企业的数据量已经接近EB量级了。
- Velocity(高速):这是大数据区分于传统数据挖掘的最显著特征。
- Variety(多样):这种类型的多样性也让数据被分为结构化数据(数据库/文本为主的结构化数据)和非结构化数据(日志 、图片、视屏等)
- Value(低密度):价值密度的高低与数据总量的大小成反比!!!
2.有哪些应用的场景
- 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本
- 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量
- 旅游:深度结合大数据能力与旅游产业智慧管理、智慧服务和智慧营销的未来
- 商品广告推荐:给用户推荐可能喜欢的商品。等等等等。。。。。
3.Hadoop的三大发行版本
- Apache版本最原始(最基础)的版本,对于入门学习最好。
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/ - Cloudera在大型互联网企业中用的较多。
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/ - Hortonworks文档较好。
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
4.Hadoop的优势
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
5.Hadoop的组成
.在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算
版权声明:本博客为记录本人自学感悟,转载需注明出处!
https://me.csdn.net/qq_39657909