写这篇文章始于对维克托前辈《大数据时代》的理解与思考,大数据的浪潮已经一波一波地拍打在中国的土地上,各行各业都在积极的探索与这一技术的接轨和发展的机遇,所以能够见证并亲历这一个变革技术的时代我们这一代是幸运的。之所以说大数据时代是一次变革,不光是其技术进步所带来的,其伴随的思维冲击与变革也是前所未有的。这些对于大数据时代到来的赞美之词,在追捧大数据的人群中可以说是声音此起彼伏,溢于言表。但是根据我身临其境的观察发现人群中的声音有不乏少数的嘈杂与偏颇,所以想写一篇文章来表述自己的理解以及和网友前辈们进行相关的交流。
维克托前辈在《大数据时代》中提出了大数据所具有的三个特点:
- 数据更多:不是随机样本,而是全体数据。
- 数据更杂:不是精确性,而是混杂性。
- 数据关系:不是因果关系,而是相关关系。
以下分别简述我对其的理解。
一、数据要全体不是样本
大数据的大是指所研究的数据集是数据的全体,而非随机采样得到的样本。可是大部分人会惯性地认为大数据的大就是比现有的数据更多更大的一个绝对量,而不会有数据全体的概念,也就是说如果我们研究的数据全体只有MB的数量级,那么我们的研究也是大数据范畴。这一惯性的认为始于以前小数据时代的采样统计学分析的延续,彼时的统计学家们证明出:采样分析的精确性随着采样随机性的增加而大幅度提高。但与样本数量的增加关系不大,也就是当样本的数量达到某个值之后,从新个体身上得到的信息会越来越少。这一特性弥补了我们当时无法获取和处理更多数据的缺陷,但是在我们的心底,对于获得更多更精确数据的愿望是不曾黯淡过的。
历史不足一百年的统计抽样分析被习惯看作是文明得以建立的基石之