大数据(四)思维变革

大数据(四)思维变革

1. 需要全部数据样本而不是抽样

当数据处理技术己经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“ 样本= 总体”。

我们要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。小数据时代的随机采样,源自记录、存储、和分析数据的工具不够好,用最少的数据获得最多的信息。然而随机采样毕竟有随机性,而且会丧失一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。而现在,因为有了大数据存储,处理的能力,我们开始关注整体数据中价值。“大”是相对意义的大,也就是相对所有数据来说的。拥有全部或者几乎全部的数据,我们就能够从不同的角度,更细致地观察研究数据的方方面面。

2. 关注效率而不是精确度

数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。“大数据”时代,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间。其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。

大数据时代要求我们重新审视精确性的优劣。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。值得一提的是,错误并不是大数据固有的特性.而是一个亟需我们去处理的现实问题,并且有可能长期存在。

3. 关注相关性而不是因果关系

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,其他数据值很有可能会随之增加。比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就意味着当一个数据值增加时,其他数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。 关联物,预测的关键。

通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果 A 和 B 经常一起发生,我们只需要注意到 B 发生了,就可以预测 A 也发生了。这有助于我们预测 A 可能会发生什么,即使我们不能直接测量或观察到 A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。

建立在相关关系分析法基础上的预测是大数据的核心。它告诉你的是会发生什么,而不是为什么发生。事实上,就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的视野。

喜欢就点赞评论+关注吧

这里写图片描述

感谢阅读,希望能帮助到大家,谢谢大家的支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值