大数据营销——离群数据

2013年,天文学家发现了一个小型椭圆星系,然而这个椭圆星系一直是个谜。该星系没有任何特征、没有其他星系的螺旋结构,看起来像是一个被孤立的星系,仿佛与宇宙中所有的外层恒星没有任何关联。


为解开离群星系之谜,天文学家对公开的天文数据库进行了大规模搜索,最终找到195个小型椭圆星系,其中大多数都在星系群中,只有11个是离群星系。对这11个星系分别进行研究之后,科学家终于得出了结论:这些离群星系原本也是处于星系群中的,但在围绕更大的星系旋转的过程中,这些星系的外围恒星不断被剥离,紧接着第三个星系从这些星系的底部与其近距离相遇,这时这些星系就会受其重力作用像弹弓上的弹子一样被扔出了星团,成为离群星系。

就像宇宙中存在着少数的离群星系,数据库中也存在着少数的离群数据。离群数据就是在众多数据中明显与其他数据不同、不满足数据的普遍行为模式、与大部分数据不一致的数据。离群数据的产生原因有很多,比如计算机录入错误、人为错误等。大家应该尽量避免人为原因造成的离群数据,否则将会给公司或者个人带来无法预见的损失。


中国强大的个案市场调查公司之一——普瑞辛格调研公司给《中国财富》出示的两组数据,证明了调研数据的严谨性。两份相同的调研问卷,两种结构完全相同的抽样,却产生了差异巨大的两组数据。普瑞辛格公司的副总经理邵志刚称,国内某家知名电视机生产公司因这次调研将20多人的市场研究部门注销、人员全部被裁剪。

该调查问卷的问题是:列举您比较青睐的电视机品牌。第一组得出的结论是:15%的消费者首选被公司的电视机;第二组得出的结论是:将近40%的消费者认为购买电视机首选本公司。公司高层面对两种巨大差异的数据非常生气。两个完全相同的调研抽样,为何会出现如此矛盾的结果?公司随即进行了调研诊断,找出了问题所在。

普瑞辛格接受了这个任务。执行人员与调研小组进行了深入交流,很快得出了诊断结论:第二组调研小组的数据存在异常,是不可信的。调研小组在调研的过程中对被访问者存在误导行为。原来,第二小组在进行访问的时候,所有成员同佩戴了公司发放的领带,而领带上有明显的本公司标志。被访问者通过观察一般都可以猜测出调研的主办方是谁。第二组还犯了一个错误,就是在调研的过程中,向被访问者出示的选项记录板,把本公司的名字放在了预备选项的第一位。这样,被访问者接收到了调研的主办方信息,从而影响了本身的客观选择。

公司董事长开除调研部门主管时说:“如果我相信了你们的数据,公司将增加一倍的生产计划,这给公司带来的损失可能超过千万,这个责任不知谁能承担得起。”尽管大数据对公司发展来说有着重要意义,但是由于人为原因导致统计出现了错误数据还不如没有数据。


在一个数据丰富的数据库中,离群数据与非离群数据之间并没有根本区别。实际上,用户对于离群数据的挖掘必须通过一个阈值的界定。将偏差度高于阈值的所有集群标记为离群值集群,集群中的成员都是离群数据。

在统计学上,人们经常用线性回归的方法判断离群值,从而达到清洗数据与挖掘数据的目的。通过离群数据的检测可以发现数据的“小众模式”,即数据特征显著不同于其他数据的对象。大家会有这样的经验,很多例外事件总是显得比普通事件更有趣,也更有研究价值。因此离群数据的检测将会不断深入发展。

Bingdata优网助帮汇聚多平台采集的海量数据,通过大数据技术的分析及预测能力为企业提供智能化的数据分析、运营优化、投放决策、精准营销、竞品分析等整合营销服务。

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值