大数据的5个“小观点 ”(转)

小观点1:大数据的信息熵值低

1948年,香农提出信息熵的概念,可以用于表述信息的价值,信息熵高的言简意赅,信息熵低的冗余拖沓。目前,很多大数据的来源都是一些系统的Log,图片,视频等。特别是日志系统数据,数据越来越多,越来越大,其中大部分是固定模板的数据,区分度差,信息量并没有随着数据的增加而线性增加。另外举个例子,之前我们使用胶卷照片的,我们会选择重要的场景,珍惜每一个照片,设计好角度和光圈,现在有数据相机了,内存近乎无限大了,大家肆无忌惮的自拍,哪怕都是同一个角度,大家照的废片也是一把一把的。同一类型的数据多了,信息熵也就降低了。
 

小观点2:大数据不是银弹,是蚂蚁效应

大数据应用常见,多见于推荐系统,业务流程优化,医疗,性能优化,预测,金融交易等,这些业务在传统的做法上,已经十分依赖于数据了,虽然以前不叫大数据,但是也都是数据驱动的业务。数据的规模和种类增多,处理方法的增多,会渐渐提高这些应用的精准性,这种提高一定是渐渐的,一点一滴的。也许一天两天感觉不错来的,但是经过多年的持续改进,这种效果是显而易见的。

举个例来说,语音识别起始于60年代,基于小型词汇库,在90年代,IBM推出的ViaVoice是语音识别的一个里程碑,基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟,数据也是基于大量的词汇库,语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库,效果有改进,但是还无法达到实用的程度。2009年以后,借助于互联网语料库的进一步丰富,数据料的增长,远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升,用户也不断使用语音识别反馈更多的数据。以至于,谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ,和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题,例如自动驾驶,人工智能等。
 

小观点3:大数据不解释因果关系,只关心相关性

《大数据时代》中定义了大数据的第三个特征,“不是因果关系,而是相关关系”。沃尔玛通过数据挖掘,发现蛋挞和飓风产品有很多关联性,并且放在一起销售提高销售量。没有人清楚其中的因果关系,当然,也可能有人牵强的解释,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们获得了相关性,但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击:很多时候我们在二维世界的相关性,是无法在二维世界进行解释因果的,也许只有在三维或者多维世界才能够解释因果关系,而这种因果关系无法直接理解,只能进行归纳成相关关系。

小观点4:大数据资源公司最佳变现是被收购,而后是广告和征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司),因为他们对于变现的能力和可持续性都有很多顾虑,他们也面临高风险的用户隐私挑战,因此很多大数据资源公司的PR工作,远远多于具体落地的数据服务工作。因此,各个专业大数据公司都忙于各种行业洞察报告和排行榜,数据可视化的工作一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,很多公司会提到“数据服务”,实际上数据服务的市场相对稳定,并没有因为大数据公司的发展而市场膨胀,因此“数据服务”实际上是一个明显的“僧多粥少”的状态,另外老牌的数据公司,例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式,2014年Oracle收购BlueKai获得很多众互联网用户数据,BlueKai的数据来源于和很多小网站进行数据交换和购买,尼尔森公司收购了DMP公司eXelate,eXelate的数据来源各个合作伙伴的数据,它提供了数据共享和交换的平台,创建DMP支持广告优化投放。 2014年,农业技术公司孟山都宣布以9.3亿美元巨资收购意外天气保险公司Climate Corporation. Climate Corporation是一家分析历史天气数据的公司,如降雨和土地质量等来帮助农民预测作物产量。在中国阿里巴巴收购友盟也是觊觎数据资源。

既然数据服务不容易攒钱,那么有没有靠谱的变现途径呢?从目前来说,广告和泛征信是两个最有效的变现渠道,效果广告的精确投放,品牌广告主需要强烈的数据背书,这些都需要数据服务,因此在广告行业专业的DMP公司,对于程序化交易是必不可少的。另外,就是征信系统,金融的本质是一个套信用系统,这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存,主要依据就是风险控制,大数据是重要技术支持,因此很多P2P会采购大量数据资源,加强自己的征信系统。
 

小观点5:大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进,例如摄像头,手机,智能穿戴设别等。 其中,大量用户隐私数据被收集,例如用户地址,交易数据,搜索数据,用户的地理位置信息,用户的脉搏,联系人列表等等。这些都是用户的个人数据,各大数据公司都通过改善服务为借口,获得用户的授权,而进行隐私的汲取和偷窥。

也有一种声音,这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先,服务商提供更好的服务,并不代表可以收集用户的隐私数据;其次,很多公司不提供不收集用户隐私数据的服务的选项,这让很多用户无法选择禁止用户隐私数据收集,这是一种利用市场地位的垄断和霸王条款;而后,所有数据公司没有提供数据清理功能,删除用户所有的历史数据。这意味着,你的隐私数据一旦被收集,可以被无限次的无范围的滥用。

结束语

好了今天先谈这么多,大数据很忽悠,小观点也不一定靠谱,兼听则明,偏信则暗。希望大家在大数据的雾霾里面找到自己的新鲜空气。

 

了解更多详情请登录超人学院网站http://www.crxy.cn?sxy或者关注超人学院微信号:CRXY-CN

转载于:https://my.oschina.net/crxy/blog/693021

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值