Big Data?
- What? 4V特征
Volume 数据量大
Variety 数据种类多
Velocity 处理速度快
Value 基于高度分析的新价值(价值密度低)
- 带来的技术变革
计算瓶颈
存储瓶颈
数据库瓶颈
Hadoop?
- What?
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
reliable, scalable, distributed computing
高可靠、易扩展、分布式
- Include?
Distributed File System (HDFS) - - 分布式存储
YARN - - 资源调度
MapReduce - - 分布式计算
注:Apache顶级项目url命名规则
projectName.apache.org,如:
http://hadoop.apache.org
http://hive.apache.org
http://spark.apache.org
http://hbase.apache.org
- Why? 选用Hadoop作为大数据平台的解决方案
1.源码开源
2.社区活跃、参与者多
3.涉及到分布式存储和计算的方方面面:
- - Flume进行数据采集
- - Spark/MR/Hive等进行数据处理
- - HDFS/HBase进行数据存储
4.已得到企业界的验证
HDFS?
- What?
Hadoop实现了一个分布式文件系统
源自于2003年Google的GFS论文
MapReduce?
- What?
分布式计算框架
源自于2004年Google的MapReduce论文
YARN?
- What?
资源调度框架