1.大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。
2.“N=All(所有)”常常仅仅是对数据的一种假设,而不是现实。现实数据是含有系统偏差的,通常需要人们仔细考量,才有可能找到并纠正这些系统偏差。大数据,看起来包罗万象,但“n=All”往往不过是一个颇有诱惑力的假象而已。
3.醉汉找钥匙的行为,恰恰就是科学研究所遵循的哲学观。前人的研究成果,恰是是后人研究的基石,也即这则故事中的“路灯”。到路灯下找钥匙,虽看来有些荒唐,但也是“无奈之下”的明智之举。
4.大数据的价值,主要体现在它的驱动效应上,大数据对经济的贡献,并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。
5.“大数据”中依然存在大量的“小数据”问题,大数据采集同样会犯小数据采集一样的统计偏差
6.在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了“相关性”背后的理由,才是新知识或新发现。
7. “大数据傲慢(Big Data Hubris)”还体现在,存在一种错误的思维方式,即误认为大数据模式分析出的“统计学相关性”,可以直接取代事物之间真实的因果和联系,从而过度应用这种技术。这就对那些过度推崇“要相关,不要因果”人群,提出了很及时的警告。
8. 大数据技术,与所有技术一样它本身无所谓“好”“坏”,故它本身在伦理学上是中性的。然而使用它的个人、公司、机构有价值取向的,大数据犹技术如一把双刃剑,它可以给我们的生活、科研带来便利,但也能带来诸如侵犯隐私的消极影响。