1.1 流数据的来源
大数据
大数据概念:大数据技术描述了一个技术和体系更新的新时代,呗设计与从大规模多样化的数据中通过高素捕获、发现和分析技术提取数据的价值
3V定义:高容量(Volume)、高度变化(Velocity)、多样化(Variety)
传统的数据挖掘方式:抽样的数据、准确的数据建模、精确的处理结果
大数据的挖掘方式:精确性不是目标(从抽样到全样、从精确到非精确、从因果到关联)
流数据来源
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材,例如声音、图像、符号、文字等。
很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。
近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达。
流数据的来源多种多样,例如数据移动系统,刚开始是为LinkedIn、Yahoo!和Facebook的网站分析与在线广告处理数据,设计这样的处理系统是为了应对Twitter和LinkedIn这样的社交网络所带来的社交媒体数据处理的挑战;再如在线广告,Google公司的商业帝国与在线广告息息相关,其通过深度学习技术利用超大规模神经网络来学习复杂模式。
通过使物联网以及其他高度