避免大数据的“思维陷阱”

大数据时代, 即便是小公司也可能轻易拥有海量的数据。 然而, 在进行 大数据分析时, 人们很容易就会掉入大数据带来的认知陷阱。 弗吉尼亚大学达顿商学院的教授Robert Carraway在最近的一篇文章里, 介绍了如何通过“小实验”来避免这样的思维陷阱。

     大数据分析可以追溯到30年前, 那时在数据分析界, 人们认为数据分析的工具和算法已经可以深度分析出任何东西, 所欠缺的就是数据量。 数据分析师们的说法就是, 如果你能够让我测量一切数据, 追踪一切数据, 从微观的精确到分钟的销售, 精确到每个人的资源消耗,到宏观的变量如利率的变化等, 我就能够告诉你想知道的一切, 这些变量之间的相关性, 它们的变化趋势等等一切的一切。

      这种说法一直是主流数据分析界的看法。 到了今天, 数据量已经不成问题了。 互联网的几乎能够找到你需要的任何数据。 想要知道宾夕法尼亚州的工业清洗设备的销售与该州的钢铁厂的设备使用的关系? 没问题, 想要提高用户满意度? 可以把用户投诉数据采用聚类算法进行聚类。 你动动鼠标, 很多数据就能够找到了。

大数据的“罗生门”

      好了, 现在的问题, 已经不是数据不够的问题了。 分析师不能再说“我的分析方法没问题, 只要有足够的数据。 ”如今, 数据的丰富程度已经足以满足任何分析方法的需要。 相反, 分析师需要考虑的是“什么样的分析方法最合适”以及“这些数据到底能告诉我们什么”。

     这很自然地带来了另一个问题, 这个问题可能是大数据带来的真正问题。 那就是:

     现有的数据, 多的可以让你想要分析出什么结果, 就能分析出什么结果。

     有一句话叫做:“这个世界上有两种谎言, 第一种叫谎言, 第二种叫统计”。 我们的大脑有一种无与伦比的能力, 那就是发现规律的能力(即便是其实没有规律)。

     达顿商学院的教授曾经在班上做过这样一个实验:他找了两个学生, 其中一个学生, 用随机数生成器 生成一个数列, 数列里的每个数, 都是1 到10 之间的一个随机整数。 另一个学生, 则写同样长度的一个数列, 数列中的每个数, 这个学生可以随机地写从1到10 之间的一个整数。 教授让第三个学生, 把这两个学生生成的数列给他看。 他几乎每次都能正确地判断出那个数列是真的随机数列, 哪个数列是人工写的。 那些看上去有规律, 或者常有连续重复数字的, 是随机数列。 而人工写成的数列, 则尽量避免出现规律性或者重复性。 为什么呢? 因为我们总潜意识里, 会认为有规律性或者重复性的东西, 一定有它的原因, 就不可能是随机的。 因此, 当我们看到任何有点规律的模式时, 我们就会认为一定有一些非随机的因素。

      这种潜意识其实来自于我们在自然界的生存本能。 当你看到草丛晃动的时候, 你宁可认为是有一只老虎在那边, 也比认为是“随机的” 风吹的, 而最后跳出一只老虎来强。

用“小实验”来验证“大数据”

     如何才能避免掉入这样的认知陷阱呢? 可以采用达顿商学院教授Jeanne Liedtka所提倡的“小规模实验”的方式。 “小规模实验”与“大数据挖掘”的区别在于, “小规模实验”是特别设计来验证那些凭借分析工具(或者在分析工具帮助下的想象力)所“发现”的规律的正确性。 设计小规模试验的关键, 就是用实例去验证你发现的规律。 如果验证结果是正确的话, 那么规律或模式的可信度就提高了。

      为什么要“小规模”呢?因为, 在海量数据加上分析工具, 可以让我们去发现无数的规律和模式, 而对每个规律或模式去验证会投入资源(时间以及金钱)。 通过把实验数据量的规模减小, 我们就可以更快更有效地验证更多的可能性。 这样也就能够加快企业的创新过程。

      如何进行“小规模实验”, 要根据具体情况看(编者注: 本站文章解密奥巴马的大数据精准营销战里提到了奥巴马的竞选团队进行的实验性数据分析, 读者可以参考)。 一般来说, 实验会采用大数据分析所用的数据集。 从中取出一部分子集进行分析, 发现的规律, 通过另一部分数据子集进行验证, 如果规律在验证数据子集中也存在的话, 再利用大数据数据集采集的方式采集新的数据, 进一步进行验证。

      保险公司Progressive Insurance以及信用卡公司Capital One是两个利用数据分析成功取得竞争优势的公司。 在他们的实践中, 他们就很好地采用了这样的“大数据, 小实验”的方式, 他们意识到我们天生的那种发现“并不存在的”规律的能力的危险性, 因此,他们利用小规模试验的方式, 从而使得他们能够快速有效地进行数据挖掘。

      海量数据加上分析工具, 使得数据分析现在是一个很热的话题。 很多企业认为数据分析师能够“点石成金”。 但是,常言道: “人们看到的是他们想要看到的东西。” 今天, 我们有了海量数据和能“发现任何规律”的分析工具后, 还是不能忘记那个最古老的办法——用小规模的实验去验证。 否则的话, 几百万上千万美元的大数据投资, 可能发现的只是我们想象出来的“规律”。

 

本文链接:http://www.itongji.cn/article/011015242013.html

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值