大数据时代要转变的思维:
- 要分析所有数据,而不是少量的数据样本
- 要追求数据的纷繁复杂,而不是精确性
- 要关注事物的相关关系,而不是因果关系
1. 分析所有数据,而非少量数据
至今为止,人们搜集数据的能力有限,因此采用的是“随机采样分析”。
例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查。通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的。
为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。
这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。
但是,随机采样有三个问题:
- 依赖随机性,而随机性很难做到。例如,使