一、特点:5V
1、volume-体积量大
包括采集、存储和计算的量都很大。大数据的起始计量单位至少时T、P(=1024T)、E(=100万个T)、Z(10亿个T)。
2、variety-种类多
具体表现为网络日志、音频、视频、图片、地理位置信息等。
3、value-数据价值密度低
随着互联网以及物联网的广泛应用,信息海量,但价值密度较低。
4、velocity-增长速度快
5、veracity-数据的质量,准确度
二、Hadoop概述
Hadoop是Apache提供的一个开源的、可靠的、可扩展的、用于分布式计算的顶级项目。
三、版本介绍
Hadoop1.0:
HDFS、MapReduce
Hadoop2.0:
HDFS、MapReduce、Yarn。Hadoop2.0版本不兼容1.0
Hadoop3.0:
HDFS、MapReduce、Yarn、Ozone
五、模块
Hadoop Common: 除了HDFS以及MapReduce以外的其他组件。
Hadoop Distributed File System (HDFS):一个用于快速存储数据的分
布式文件系统。
Hadoop YARN: 任务调度和资源管理的框架。从Hadoop2.0出现的。
Hadoop MapReduce: 基于Yarn进行海量数据的并行计算的框架。
Hadoop Ozone: 对象存储。基于HDFS。