第一部分:大数据的时代思维变革
不是随机样本,而是全体数据
- 小数据时代的随机采样,最少的数据获得最多的信息
- 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。简单解释是,当样本数量到达某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。所以可以认为样本选择的随机性比样本数量更重要。
- 随即采样是在不可收集和分析全部数据的情况下的选择,存在许多缺陷,比如实现采样的随机性非常困难,比如考察子类别。
- 全数据模式,样本=总体
- 大数据不同与随即采样,大数据采用了所有数据的方法。
- 比如谷歌通过分析整个美国几十亿条互联网检索记录预测流感趋势。
不是精确性,而是混杂性
- 允许不精确
- 对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。比如追求更高精度的对时间、空间的测量。
- 在新情况下,允许不精确的出现已经成为一个新的亮点。放松了容错的标准,人们可以掌握更多的数据&#