谈谈对大数据的八个观点分析

最新推荐文章于 2023-12-29 18:42:37 发布

aa541505

最新推荐文章于 2023-12-29 18:42:37 发布

阅读量3.6k

点赞数 1

分类专栏： IT资讯互联网科技人工智能大数据hadoop学习文章标签：大数据人工智能程序员编程语言 hadoop

本文链接：https://blog.csdn.net/aa541505/article/details/90299932

版权

本文探讨了大数据的多个观点，包括信息熵值低、不是银弹、不解释因果、资源公司变现、隐私挑战、数据定价困难、价值真水无香以及业务理解的重要性。大数据的应用虽渐进提高精准性，但同时也引发用户隐私和数据价值衡量的争议。了解业务本质，合理运用数据，才是关键。

摘要由CSDN通过智能技术生成

越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，价值(Value)，但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类，而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变现么?如何来变现却是大数据的核心问题。

做大数据的同学，外面看起来像是红楼梦的大观园一样，外表光鲜亮丽，身在其中的人，才知道各有各的无奈。大数据的处理通常分为，数据收集，数据清洗，数据加工。数据应用，数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉，数据清洗的同学总有沙里淘金的感觉，数据加工的同学也经常受两头气，相比来说，做数据可视化的同学比较幸运，可以找到很多炫酷的感觉，但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学，不得不靠着忽悠行走江湖。

【观点如下】

大数据的信息熵值低
大数据不是银弹是蚂蚁效应
大数据不解释因果，更关心相关性
数据资源公司最佳是被收购，最好应用是广告和泛征信
大数据是对用户隐私的汲取
用户数据无法用过定价来进行数据交易
搞清楚业务，再谈大数据也不晚
大数据的价值是真水无香

•观点一：大数据的信息熵值低

1948年，香农提出信息熵的概念，可以用于表述信息的价值，信息熵高的言简意赅，信息熵低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log，图片，视频等。特别是日志系统数据，数据越来越多，越来越大，其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。

•观点二：大数据不是银弹，而是蚂蚁效应

大数据应用常见，多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等，这些业务在传统的做法上，已经十分依赖于数据了，虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会渐渐提高这些应用的精准性，这种提高一定是渐渐的，一点一滴的。也许一天两天感觉不错来的，但是经过多年的持续改进，这种效果是显而易见的。

举个例来说，语音识别起始于60年代，基于小型词汇库，在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，