概述
-
大数据从面世以来,不同的机构、组织都试图对大数据做出定义,但是到目前为止,大数据并没有产生准确的定义,达成了共识:大数据是围绕海量数据来进行处理分析,从而挖掘数据的价值
-
虽然大数据没有准确定义,但是总结出来大数据的几个特征
-
对于整个大数据产业而言,大概可以划分为数据采集(日志采集、业务数据采集、爬虫等)、数据存储、数据分析(离线、实时)、数据挖掘、数据可视化
6V
-
Volume:数据量大,包含数据采集、存储、分析量都很大。中小型企业的日数据量大约在GB~TB级别,大型企业的日数据量大约在TB~PB级别
-
Variety:数据来源、种类和样式多。随着网络的发展,数据的来源越来越多样化,种类也越来越多样化(文字、图片、视频、音频、流媒体等),样式也多样化(结构化数据、半结构化数据、非结构化数据)
-
Velocity:数据增长速度快。随着网络的发展,数据的增长速度是越来越快的。根据科学家的估计和计算,全球的数据总量每3-5年会翻一番
-
Value:数据价值密度低。随着网络的发展,数据总量越来越大,那么需要的数据在数据总量中的占比就越来越低,也就意味着数据价值密度在变低
-
Veracity:数据的真实性/价值。互联网上的数据/信息良莠不齐,导致数据的质量也参差不齐
-
Valence:数据的连通性。随着大数据的发展,大数据也衍生出不同的岗位和模块,此时就需要考虑不同模块之间的关联
-
随着大数据的发展,衍生出其他的特征:Visualization(可视化),Vitality(动态性),Validity(合法性)等