大数据的5个“小观点 ”（转）

最新推荐文章于 2024-05-26 17:05:19 发布

weixin_33762321

最新推荐文章于 2024-05-26 17:05:19 发布

阅读量74

点赞数

文章标签：大数据

原文链接：https://my.oschina.net/crxy/blog/693021

版权

为什么80%的码农都做不了架构师？>>>

小观点１：大数据的信息熵值低

1948年，香农提出信息熵的概念，可以用于表述信息的价值，信息熵高的言简意赅，信息熵低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log，图片，视频等。特别是日志系统数据，数据越来越多，越来越大，其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。

小观点２：大数据不是银弹，是蚂蚁效应

大数据应用常见，多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等，这些业务在传统的做法上，已经十分依赖于数据了，虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会渐渐提高这些应用的精准性，这种提高一定是渐渐的，一点一滴的。也许一天两天感觉不错来的，但是经过多年的持续改进，这种效果是显而易见的。

举个例来说，语音识别起始于60年代，基于小型词汇库，在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟，数据也是基于大量的词汇库，语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库，效果有改进，但是还无法达到实用的程度。2009年以后，借助于互联网语料库的进一步丰富，数据料的增长，远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升，用户也不断使用语音识别反馈更多的数据。以至于，谷歌公司人工智能方面的专家彼得·诺维格（Peter Norvig），和他的同事在一篇题为《数据的非理性效果》（The Unreasonable Effectiveness of Data）的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题，例如自动驾驶，人工智能等。

小观点3：大数据不解释因果关系，只关心相关性

《大数据时代》中定义了大数据的第三个特征，“不是因果关系，而是相关关系”。沃尔玛通过数据挖掘，发现蛋挞和飓风产品有很多关联性，并且放在一起销售提高销售量。没有人清楚其中的因果关系，当然，也可能有人牵强的解释，美国人喜欢飓风时期躲在家里吃蛋挞，通过数据我们获得了相关性，但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击：很多时候我们在二维世界的相关性，是无法在二维世界进行解释因果的，也许只有在三维或者多维世界才能够解释因果关系，而这种因果关系无法直接理解，只能进行归纳成相关关系。

小观点4：大数据资源公司最佳变现是被收购，而后是广告和征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司），因为他们对于变现的能力和可持续性都有很多顾虑，他们也面临高风险的用户隐私挑战，因此很多大数据资源公司的PR工作，远远多于具体落地的数据服务工作。因此，各个专业大数据公司都忙于各种行业洞察报告和排行榜，数据可视化的工作一个比一个炫丽，一个比一个追热点。谈到大数据公司的变现，很多公司会提到“数据服务”，实际上数据服务的市场相对稳定，并没有因为大数据公司的发展而市场膨胀，因此“数据服务”实际上是一个明显的“僧多粥少”的状态，另外老牌的数据公司，例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式，2014年Oracle收购BlueKai获得很多众互联网用户数据，BlueKai的数据来源于和很多小网站进行数据交换和购买，尼尔森公司收购了DMP公司eXelate，eXelate的数据来源各个合作伙伴的数据，它提供了数据共享和交换的平台，创建DMP支持广告优化投放。 2014年，农业技术公司孟山都宣布以9.3亿美元巨资收购意外天气保险公司Climate Corporation. Climate Corporation是一家分析历史天气数据的公司,如降雨和土地质量等来帮助农民预测作物产量。在中国阿里巴巴收购友盟也是觊觎数据资源。

既然数据服务不容易攒钱，那么有没有靠谱的变现途径呢？从目前来说，广告和泛征信是两个最有效的变现渠道，效果广告的精确投放，品牌广告主需要强烈的数据背书，这些都需要数据服务，因此在广告行业专业的DMP公司，对于程序化交易是必不可少的。另外，就是征信系统，金融的本质是一个套信用系统，这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存，主要依据就是风险控制，大数据是重要技术支持，因此很多P2P会采购大量数据资源，加强自己的征信系统。

小观点5：大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进，例如摄像头，手机，智能穿戴设别等。其中，大量用户隐私数据被收集，例如用户地址，交易数据，搜索数据，用户的地理位置信息，用户的脉搏，联系人列表等等。这些都是用户的个人数据，各大数据公司都通过改善服务为借口，获得用户的授权，而进行隐私的汲取和偷窥。

也有一种声音，这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先，服务商提供更好的服务，并不代表可以收集用户的隐私数据；其次，很多公司不提供不收集用户隐私数据的服务的选项，这让很多用户无法选择禁止用户隐私数据收集，这是一种利用市场地位的垄断和霸王条款；而后，所有数据公司没有提供数据清理功能，删除用户所有的历史数据。这意味着，你的隐私数据一旦被收集，可以被无限次的无范围的滥用。