“大数据”是一个术语,用来描述一种数据集,它及其庞大、复杂,以至于畅通的数据处理应用程序难以应对。术语“大数据”通常指的是应用预测分析、用户行为分析或者某些其他从数据中提取有价值信息的高级数据分析方法,并不是专指某特定规模的数据集。
——维基百科
大数据的概念
按照维基百科的定义,主要从两个反面解释了“大数据”的概念:
-
满足“大数据”首先要数据量巨大,巨大到什么程度哪?就是传统的数据处理程序难以应付的程度。(但依然没有明确一个量化的概念,TB级,PB级,还是很模糊的概念)但我认为“大”只是大数据的表象,还有更深层次的东西。
-
“大数据”指只通过收集到的一些数据(信息)进行一些分析,预测提取更有价值的信息的方法行为。
所以,“大数据”不仅仅指“大”的数据集;它要是具有足够的规模、足够的维度的的数据量的数据集,可以基于此数据集进行一些预测、分析及更有价值的信息提取。
大数据特性 4V”
- Variety 多样性
指多种数据源多样,数据类型多样包括结构化数据、非结构化数据; - Velocity 时效性
指在大数据背景下,具有快速分析处理数据的能力。这个V的意义在于能够基于现有数据迅速做出决策。 - Volume 海量性
指只有基于海量的数据样本,才能推导出有意义的结论。 - Veracity 准确性
指要控制数据的质量,保证数据的可靠和准确,才能保证分析出有意义的结果。
注:以前之前三个V,后来IBM提出了第4个V,在可能出现各种散布的假新闻,社交媒体充斥着虚假信息,在收集数据时对数据渠道的可靠性与准确性的验证尤为重要。