大数据分析应如何规避误差

  现在大数据离生活越来越近,现如今,大数据已经越来越多的融入到我们的日常生活和工作之中,决策者我们也越来越依赖大数据做出决策。但同时,有些人也对大数据产生了质疑,认为大数据但也有一种声音表示,大数据这东西看起来挺好,但有时也会误导我们。其实,大数据本身并没有什么问题,它给我们带来的好处和便利毋庸置疑,这可不是说大数据本身有什么问题,它是没问题的,有问题的是我们采集数据的方式。一旦我们在采集数据的这个过程中出了问题,大数据就有可能给我们带来麻烦。反而会帮我们的倒忙。那采集数据的时候究竟可能会出现什么错误呢?又该如何规避呢?


  第一,种错误叫选择误差,如果选择的数据样本不平均,就会出现选择误差这类错误。比如说,美国大选前都要做民意测试,但根据这种方式预测的结果并不准确,因为测试的方式有问题,调查民意时需要选民支付30美元才能参与,能来支付这笔钱的人也许是热衷政治,也许是中产阶级,总之不能代表全民的平均水平。这类错误还有很多其他案例,这样的案例有很多,比如说在机场做消费问卷调查的话就可能会出现有偏差,因为坐飞机的人相对来说要讲比一般人更富裕些。所以说,一旦选择的数据样本不平均出错,那得出的结论肯定会有问题。


  第二,种错误叫幸存者误差,就是说,如果选择的数据样本里有过高或者过低的数据,那就会出现幸存者误差那得出的结论就会有问题。简单打个简单的比方,一个正常身高的人群里有姚明的话,一个屋子里如果坐着姚明,那这群人屋子里人的平均身高肯定就会偏高嘛。美国的一所大学曾经有个报告,说他们学校地理系的毕业生平均年收入水平最高,这就很让人费解了,因为地理系不是这个学校的热门专业,也不是社会上的高薪职业,怎么会出现这样的结果呢?原来啊,这是因为,NBA超级球星乔丹就是这家学校地理系毕业的,他一个人就拉高了整个学校的平均水平。所以,为了避免出现这种幸存者误差,有时候做统计的时候往往要去掉最高和最低的数据一个最高分,去掉一个最低分,然后再把剩下的数据平均一下再把平均下来的分数作为最终结果得分。


  第三,人们在种错误叫回忆误差。什么意思呢?就是说,你选择的数据样本时,会受到大脑回忆的影响,从而产生回忆误差,。而这个误差的形成完全是心理作用。,我们都愿意将现状理解为过去发生的必然结果,就是喜欢把现状和过去用因果关系对应上,尤其是对一些特别糟或者特别好的情况。比如说,哈佛大学曾经做过了一个心理实验,分别找来一组患有乳腺癌的女性以及,还有一组健康的女性,让她们共同回忆自己早年的饮食习惯。结果发现,那些患病的女性在回忆过去的时候,觉得自己摄入的脂肪含量比实际上要多出很多高很大一截,但那些健康的女性那组就没出现这种情况,。这就是所谓的回忆误差。如果你根据患病女性的回忆这个研究得出结论,:认为女性摄入太多脂肪容易患乳腺癌,的妇女在年轻的时候摄入了太多的脂肪。那就太荒谬了。


  第四种错误叫健康用户误差,这个说法源于一个逻辑比喻,就是比如,每天按时吃维生素片的人身体会更健康,这种说法听起来很有道理,但并不是说代表仅仅吃维生素就能决定一个人健康与否,因为一个人健康的因素有很多种。这个举动就可以完全决定一个人是否健康。比如说曾经有个研究证明,幼年时期穿紫色睡衣的孩子,长大后成才的概率更高,98%的哈佛毕业生在小时候都穿过紫色睡衣,因为紫色更有助于幼儿大脑发育。这种说法听起来很有道理,数据看起来也无法反驳,但事实上犯了健康用户误差这个错误,最终能决定一个人成功的因素多种多样,年幼穿紫色睡衣可能只是其中很小的一个。


  此外,还有一种不易察觉的错误,如果你逃过了以上四个错误,还有第五个最不容易察觉的在等着你,叫发表错误。以上四种错误那些都是我们在选择数据样本或者分析数据分析时容易犯的毛病,而这个而最后一个却跟发表研究成果的“潜规则”有点关系。从认知角度讲,人们更喜欢正面的结果,所以传播领域也倾向于发表这样的东西。比如,说医学界研究玩游戏和患结肠癌之间的关系,抽样调查了100个数据,而这些数据中的前99个数据都显示是没什么关系,但只有一个数据显示可能有点联系,就是这个数据结果才有吸引力,而人们也更愿意看到玩游戏可以在一定程度上预防结肠癌的结果。从传播的角度来看,99个没有关系的数据没什么可吸引眼球的,但如果说玩游戏可以在一定程度上预防结肠癌,相信会有更多人愿意看到。所以说,这种发表错误的问题不在于数据本身的准确度,而是发表结果以及传播中的你向公众传达的时候会以偏概全,这也是为什么现在打开网页满屏幕都是标题党的原因了。


   大数据分析应如何规避误差.中琛魔方大数据表示:大数据要求我们使用正确的采集样本的方式以及正确的分析数据的方式,选取要求我们使用正确的采集和对待数据的方式。只有做到正确抓取和利用数据只有这样,我们才能通过数据样本提供的各种线索,接触到事物的本质和真相,进而为我所用。而大数据的基础在于,以事实为依据,以客观为追求,要尽量避免“取悦”式的发表大数据分析结论发表。因为“片面强调”有悖于大数据发展的初衷,没有普世价值的结论无法为受众提供核心价值。


中琛魔方大数据平台官网 www.zcmorefun.com


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69936596/viewspace-2655715/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/69936596/viewspace-2655715/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值