大数据时代预测更易失败

最新推荐文章于 2024-07-13 14:51:19 发布

cigang4063

最新推荐文章于 2024-07-13 14:51:19 发布

阅读量113

点赞数

文章标签：大数据人工智能

原文链接：https://my.oschina.net/u/1160813/blog/194743

版权

      纳特•西尔弗（Nate Silver）在《信号与噪声》一书对这句话提出了疑问。人们普遍认同的逻辑一般是：信息越多，信息流动速度越快，人们对未来的预测越准确，从而越能做出更合理的决策。但是且慢，你怎么知道你 Google 到的“信息”是有用的“信号”（有用的信息），还是干扰你的“噪声”（无关/无用的信息）呢？我的意思是，如果你在时间充裕，方法/模型适当的条件下，你可以辨别出信号，做出合理决策。但现实往往是，你基本上总是不会拥有充裕的时间，甚至使用的方法/模型也不合适。在信息增长越来越快的现在，我们面临这样的困境会越来越多。

   《自然》杂志曾刊登过一项研究，研究发现：美国几大政党对全球变暖的问题了解越多，他们之间达成共识的可能性就越小。我们现在（这里的“现在”得比《信号与噪声》出版时间的2012年9月更早）每天产生250兆亿字节，如果信息每天以这个速度增长，其中有用的信息肯定接近于零。其中大部分信息都只是噪声而已，而且噪声的增长速度要比信号快得多。其中有太多假设需要验证，有太多数据需要发掘，但客观事实的数量却是个相对恒量。人脑能力非凡，但根据IBM的分析，人脑的存储量不过是全球每天所产生信息量的百万分之一而已。我们对自己记忆的信息一定需要精心挑选才行。

   以美国经济预测为例。美国政府每年公布的数据，与经济指标直接相关的有4.5万个，而私人数据提供者要追踪高达400万个统计数据。一些经济学家忍不住想要把所有数据都混合在一起，并给一般的数据穿上优质的“外衣”。第二次世界大战之后只出现了11次经济衰退的情况，如果一个统计模型试图解释这11次衰退带来的后果，就必须从400万个数据中选择数据，由此得出的许多相关性都将会带有欺骗性。大数据专家热爱相关性，但如果我们不能分析出因果，我们永远无法确定该采用哪些指标去判断下一次经济衰退的迹象。

   人们将噪声误认为信号的行为，在统计学上被称为“过度拟合”（overfit）。人类大脑的工作方式是捕捉规律，并且预测。一般来讲，智商高的人的神经网络学习能力更强，这意味着他捕捉规律的能力也越强。捕捉规律能力强意味着，对于很少的样本中隐含的不明显的“规律”他们也能捕捉出来。

转载于:https://my.oschina.net/u/1160813/blog/194743

cigang4063

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据时代预测更易失败

纳特•西尔弗（Nate Silver）在《信号与噪声》一书对这句话提出了疑问。人们普遍认同的逻辑一般是：信息越多，信息流动速度越快，人们对未来的预测越准确，从而越能做出更合理的决策。但是且慢，你怎么知道你 Google 到的“信息”是有用的“信号”（有用的信息），还是干扰你的“噪声...
复制链接

扫一扫