《大数据的冲击》

最新推荐文章于 2019-09-23 16:35:42 发布

我要环游世界

最新推荐文章于 2019-09-23 16:35:42 发布

阅读量1.4k

点赞数 1

分类专栏：已看书文章标签：大数据

本文链接：https://blog.csdn.net/u013593035/article/details/48803845

版权

已看书专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第一章什么是大数据
第二章支撑大数据的技术
第三章以大数据为武器的企业（欧美企业篇）
第四章以大数据为武器的企业（日本企业篇）
第五章大数据的运用模式
第六章大数据时代的隐私问题
第七章开放数据时代的到来与数据市场的兴起
第八章为大数据时代做好准备

非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）。

除了传统的销售、库存等数据，现在企业所采集和分析的数据还包含像网站日志数据、呼叫通话中心记录、Twitter和facebook等社交媒体中的文本数据、智能手机中的内置GPS所产生的位置信息、时刻生成传感器数据，甚至还有图片和视频。用企业中主流的关系型数据库是很难存储的，他们属于非结构化数据

容量、多样性、速度

大型数据量过去就有，现在和过去的区别是，大数据已经不仅产生于特定的领域，而且还产生于我们每天的日常生活中，例如facebook和twitter上面的文本数据，尽管我们无法得到全部的数据，但大部分数据可以通过公开的API相对容易地进行采集

大数据民主化
硬件性价比的提高以及软件技术的进步
云计算普及：大数据的存储处理环境已经没有必要自行搭建了

BI商业智能：对企业内外所存储的数据进行组织性系统性的集中、整理和分析，从而获得对各种商务决策有机质的知识和观点，主要目的是分析过去到现在发生了什么，为什么会发生，并且做出报告。也就是对过去和现在进行可视化的一种方式。例如，过去一年中商品A的销售额如何，它在各门店中的销售额如何，从而有助于预测未来，也能提高预测的准确度

为了让数据挖掘的执行更加高效，就要使用能够从大量数据中自动学习知识和游泳规则的机器学习技术，机器学习技术对数据的要求是越多越好，但其瓶颈在于如何存储并高速处理学习所需要的大量数据。

对于从像“卖出了一件商品”、“一位顾客解除了合同”这样的交易数据中得到的“点”信息进行统计还不够，我们需要得到的是“为什么卖出了这件商品”、“为什么这个顾客会离开”这样的上下文（背景）信息。而这样的信息，需要从与客户之间产生的交互数据这种“线”信息中来探索。以非结构化数据为中心的大数据分析需求的不断上涨，也就是这一个趋势的反应

点击数据流

在O2O中，网络上那些信息会对实际来店顾客的消费行为产生关联，对这种线索的分析，即对交互数据的分析

CRM:客户关系管理的定义是：企业为提高核心竞争力，利用相应的信息技术以及互联网技术来协调企业与顾客间在销售、营销和服务上的交互，[1] 从而提升其管理方式，向客户提供创新式的个性化的客户交互和服务的过程。其最终目标是吸引新客户、保留老客户以及将已有客户转为忠实客户，增加市场份额。

Hadoop就是以开源形式发布的一种对大规模数据进行并行处理的技术
MapReduce指的是一种分布式处理的方法，而Hadoop则是将MapReduce通过开源方式进行实现的框架的名称。MapReduce是一种处理方法，Hadoop是一种基于apache授权协议，以开源方式发布的软件程序

Hadoop原本是由三大部分组成的，即由分布式存储大容量文件的HDFS分布式文件系统，用于对大量数据进行高效分布式处理的Hadoop MapReduce框架，以及超大型数据表HBase。现在也衍生出很多的子项目

Hadoop MapReduce是最重要的部分，Hadoop MapReduce并非用于配备高性能CPU和磁盘的计算机，而是一种工作在由多台通用型计算机组成的集群上的，对大规模数据进行分布式处理的框架

在Hadoop中，将应用程序细分为在集群中任意节点上都可执行的成百上千个工作负载，并分配给多个节点来执行，然后对各节点瞬间返回的信息进行重组，得出最终的答案。处理很高速

对发行版缺点的弥补

RDBMS关系型数据库使用SQL这种标准语言
NoSQL并不适用SQL语言，是对RDBMS所不算长领域的补充，应理解为“Not only SQL”

单一故障点
分析型数据库
数据仓库

利用Hadoop将非结构化数据转化为结构化数据，然后导入数据仓库，并使用传统的SQL来进行分析工作，将结构化数据和非结构化数据整合起来进行分析

需要对不断输入的大量数据（流数据）进行实时处理的流数据处理技术，也叫作实时数据处理技术、事件流处理技术或者CEP

在关系型数据库中，数据需要先保存到位于硬盘中表中。然后，在应用程序发出查询的时间节点上，再对所有的数据一起进行处理，并将结果输出到内存中。由于这样的搜索、运算处理在每次发出查询时都要执行一遍，因此随着数据量的增加，性能就会逐步恶化，此外，数据的写入和读取都需要对低速的硬盘设备进行访问，这会导致在查询执行时产生延迟，从而无法实现实时处理
相对的，在流数据处理中，数据输入时不会被写入到硬盘，而是在内存中对数据进行处理，从而实现高速的处理，此外，上一次的结果会被作为中间值保存下来，因此不需要每次处理所有的数据，而只需要处理流入内存的数据与中间数据的差异部分即可，通过这种方式，从输入数据到输出结果的延迟，可以控制在百万分之一秒的级别，也就是每秒实现了数十万到数百万的数据的高速处理

机器学习：人工智能锁研究的话题，是一种在计算机上实现相当于人类自然学习能力功能的技术和手段，通过对一定数量的样本的数据进行分析，并从这些数据中总结出有用的规则、知识表达、判断标准等

数据挖掘：是对大量存储的数据进行分析，并从中找出隐藏在项目之间的相互关系和模式等信息的手段。由机器从大量书中找出知识和模式

聚类：是将数据中相似的项目聚集到一起，将整个数据分为几组，在推荐系统中，可以预先将兴趣爱好类似的用户进行聚类，然后按照组为单位推荐产品，这样能够让推荐系统行为更加有效

神经网络：是指在计算机上实现人脑神经系统相同的计算方式。从应用领域来说，文字识别、语音识别等模式是最合适的，在信用、贷款的风险管理、信用欺诈检测等领域也运用广泛

回归分析：当某个变量的变化受若干其他变量的影响时，用于求得表现它们之间关系具体公式的一种统计学方法

决策树：用于预测和分类的分析方法，将决策过程中的条件用树状结构表示出来，对于其中的某一条件，分别给出YES和NO两种情况的处理方式

关联分析：购物篮分析，是一种在多个商品中找到可能会同时购买的商品组合

自然语言处理
语义检索
链接挖掘（你可能认识的人的功能）
A/B测试

商品推荐功能，过去只有经验丰富的销售人员和熟悉客户的店员才能做到，是具有人类属性的行为

SNS运营商最重要的是人脉，不断提高“也许你还认识..”功能的精准度，因为如果用户在寻找好友或熟悉人士的过程中花太多的时间和精力，对SNS业务就会带来很大的负面影响

通过精准的用户跟踪技术和分析技术，facebook发现了，如果一个用户能够在一定时间内找到一定数量的好友，则该用户就可能长期使用facebook，因此它尽可能让新用户今早找到一定数量的好友

统计学的方法

在模式识别中有一句话：大量的数据往往要胜于优秀的算法，相比于用复杂的算法来识别每一条新输入的数据来说，对大量正确存储的数据进行分析，在统计学上更能得出正确的结果

GOOGLE大量服务都是免费提供的，理由也是收集大量的样本数据

通过对用户的行为分析提升用户体验

将客户100%的数据都保存下来，构成历史记录（访问日志）

技术银弹
西方传说中，银弹可以杀死吸血鬼、狼人等怪物，在这里引申为能解决所有办法的法宝

任何技术都有长短处，要综合使用

游戏开发商的盈利模式是通过贩卖一些让游戏更好玩的虚拟道具来实现的
一般来说，游戏玩家中大部分不付钱，剩下的是铁杆粉

退出率
病毒系数：社交游戏口碑传播效率的一个指标，利用社交网络的功能，由现有玩家要请新玩家的效率，有100玩家，每个月他们能邀请150名新玩家，则病毒系数为1.5，。“社交游戏”，口碑是其盈利的源泉，而病毒系数作为盈亏的关键，是十分重要的指标
玩家人均收益

降低退出率，提高病毒系数和玩家人均收益是社交游戏业务迈向成功的捷径

三次点击测试，玩家通常在三次点击中，就会决定是继续游戏还是退出游戏

智能电表是一种采用数字式计量，并具有双向通信功能以及管理周边设备的多功能电表，把信息返回电力公司，对高峰时用电需求进行实时监控、根据时段和用电需求设置动态电费标准，以及基于用电需求抑制和移峰等需求响应操作
能源消耗可视化

在如此大量关于能源消耗模式的数据中，蕴含着让客户更好地进行能源管理的有价值的信息，但仅仅将电表数据可视化还不够
模式识别算法对内存中大量的采样数据进行高速处理，从而归纳出用户的使用模式
不必对上百万签约用户逐个确认，把用户的行为特征，进行分类，费用菜单开发、对电表采集数据的准确性进行检测，对未来消费趋势的预测

当用户在收银台结算时，通过对其购买模式（购买商品，点数，来店频率，购物金额等）与其它数千万人的模式进行比较，实时计算出该顾客可能会感兴趣的优惠券，从而刺激购买欲

电视广告和报纸广告等以不确定多数为对象的广泛营销，基于消费者实际购买行为的营销才是更有效的营销手段

远程监控系统，通过安装在建筑机械上的GPS和各种传感器，对机械当前所处位置、工作时间、工作地点、工作状况、燃油余量、耗材更换时间等数据进行收集，并使用卫星通信或移动网络通信等方式，最终通过互联网发送到自己的服务器上

Hadoop高速处理，通过改变条件，进行重复多次试错
实现采样数据所无法做到的长尾部分分析
缩短开发周期
改变分析、商品策划人员的意识，从而让曾经无意中放弃的灵感得以破土而出

符合逻辑的设计放在首位，基于数据进行决策

手机数据收集

商品与服务的推荐
行为定向广告
（利用位置信息的）营销活动
检测非法使用
客户叛离分析
故障预测
异常检测
服务改善
交通阻塞预测
用电需求预测
感冒流行预测
股市预测
优化燃油成本
…

个别优化整体优化实时型批处理

对过去/现状的把握
发现模式
预测
优化

动态定价

对过去没有运用过的数据或者是无法获得的新型数据的运用，能够带来巨大的商机

隐私（bo not track）

涉及个人信息及个人相关信息的经营者，需要在确定使用目的的基础上实现征得用户同意，并在使用目的发生变化时，以易懂的形式进行告知，这种对透明度的确保今后应该会愈发受到重视。其关键在于，如何表达为用户带来好处的诉求。如果只对经营者一方有好处，便很难得到用户的理解，反过来说，如果对用户有很多好处，那么获得用户同意的门槛就会降低

数据市场

LOD linked to open
政府开放数据

元数据

数据间的整合

数据市场之间的兼容性

CDO首席数据官

数据聚合商
所在领域数据的深入程度

将自己公司的原创数据和其他公司的数据进行整合，形成增值数据
不应局限与自己的行业，要以更开阔的视野指定数据运用的战略

工具再完美，工具本身不能让数据产生价格

数据科学家
数据可视化

沟通能力

组织结构和企业文化