目录
一、技术范型转换
传统的互联网与商业数据的存储和处理主要使用关系型数据库技术,数据库企业巨头 Oracle 是
这一时期的代表企业。随着大数据时代的到米,传统关系数据库在可扩展性方面的缺陷遂渐暴露出
来,即使采用并行数据库集样,最多也只能管理百台左右的机器.而且这种并行数据库要求高配置
的服务器才可正常运转,其管理海量数据成本之高可以想象。
对于很多应用场景,尤其是互联网相关应用,并不像银行业务等对数据的一致性有很高的要求而更看重数据的高可用性以及架构的可扩展性等技术因素。因此 NoSQL 数据库应运而生,作为适应
不同应用场景要求的新型数据存储与处理架构,其和传统数据库有很强的互补作用,而且应用场景更加广泛。Yahoo 公司部署了包含 4000 台普通服务器的Hadoop 集群,可以存储和处理高达 4PB 的数据。整个分布式架构具有非常强的可扩展性。NOSQL 数据库的广泛使用代表了一种技术范型的转换。
大数据处理的目标是从海量异质数据中挖掘知识,包含了数据源收集、数据存储管理、数据分
析与挖掘以及数据展现与获取等几个序列进行的步骤,图0-1是大数据处理流程的整体架构图。
图中可看出,其形成了数据流处理的多个不同层次。
在数据存储与基本处理层之上,是数据控掘与分析技术层。大数据处理的目标是沙里淘金,从
海量原始数据中挖掘领域知识是其根本目的,尽管 NoSQL 数据库提供了数据存储的场所与简单的读写处理,但是要挖掘更深层的知识,更依赖于利用数据挖掘、机器学习、时空序列分析等复杂技术手段来从数据中获取知识。
数据可视化也是大数据处理中的重要一环,其主要目的是将挖掘出来的知识以形象易于理解的
形式呈现给用户,是所抡掘知识的具体表现方法。之后,就可以在各种不同的数据接收设备上来对
控掘出的知识进行获取。
海量原始数据经过上述层次处理步骤,就转换为用户易于理解和接受的知识,目前各种层次的
相关技术与系统方兴未艾,都处于高速的发展过程中。
以上所述是粗线条地对大数据处理流程进行了介绍,如果将目前大数据领域涉及的技术子领域
及其在整个技术体系中的位置进行梳理,可以得到图 0-2 所示的大数据处理技术架构图,其基本大数据处理涉及的各方面技术点,本书内容即按照这个技术架构对各个子领域分门别类按章节
展开详述。部分内容(数据收集、监控系统、工作流与可视化)因其处于相对不甚重要的边缘地位
或者其技术性不强所以并末进行讲解。
二、大数据商业炼金术
1.互联网公司:Netflix
2.传统IT公司:IBM
3.金融:Derwent基金
4.传统零售企业:沃尔玛
三、大数据在路上
大数据概念最早由世界级领先的全球管理咨询公司——麦肯锡提出,之后获得了全球范围工业
界、学术界、商业界的追捧与推动,形成了产业共振。大量初创公司、老牌互联网与1T公司、商业机构都轰轰烈烈地投入其中。
财大气相的巨型公司致力于提供 “大数据〞存储与计算的基础架构与平台,亚马逊的云存储与
弹性计第平台(AWSEC2)、微软的 Azure云计算平台、谷歇的 App Ensine 都是其中的俊佼者
通用的云存储与计第平台可以对其他企业和机构提供按需服务,这对于初创企业节省创业成本起到了很大的推动与促进效用,在创业初期用户较少的情况下,可以花费较少的租金租用云平台的基础设施,一旦流量激增,只需扩大资源租用数量就可以快速满足暴增的用户需求。相较于传统的创业企业自己维护存储与计算系统的方式,这种平台租用的方式不仅节省创业成本,也增加了IT资
源管理的快速响应和灵活性。亚马逊公司云平台已经为成干上万家创业公司和机构提供了相关服务。比如近两年名声大振的图片共享型社交网站Pinterest 就租用了亚马逊 AWS 存储服务,纳斯达克每天会上传超过 50 万个文件到亚马逊云存储平台。游戏化平台服务公司 BigDoor 表示:
“AWS 平台帮助我们以极低的成本快速升级系统。在任何时候我们都有运转良好的 12 台数据库服务器、45台应用服务器、6台静态服务器和6台分析服务器。如果流量或处理能力超过了目前服务能力,我们的系统会自动升级,如果不需要就会自动降级,从而节省费用。”
在这波“大数据”浪潮中,更多的相关中小型创业公司逐浪起航,其中有 Cloudera、 MapR
Horon Works 这种完善分布式计算生;态系统的技术型公司,也有 DropBox、 Zillabyte、Decide 这种面向企业和消费者直接提供“大数据”服务的初创公司。
Cloudera、MapR 和 HortonWorks 都是目前维护与改进 Hadoop 平台的主力技术公司,它们一方
面改进现有系统的性能和功能方面的缺点,另一方面也在Hadoop 平台的易用性方面下了很大功夫。以促进这个平台的更广泛流行。类似的技术公司还包括文档 NoSQL 工具 MongoDB 的开发方 10gen等很多新型技术创业公司,它们为整个〝大数据” 生态体系提供了基础的技术平台。DropBox 是免费网络文件同步工具,用户可以方便地存储和共享感兴趣的各种类型的文件,
2007 年创立以来,DropBox 正以年用户增长 10 倍的数据获得了用户的广泛欢迎:Zillabyte 提供了系列大数据分析算法和工具,帮助企业用户对海量数据进行深入挖掘以辅助企业决策:Decide.com
则为消费者提供了对大数据进行实时 商业分析服务,比如它会通过大量数据的趋势分析.告知用
何时以什么价格买入某类电子产品是最适宜的。这里只列举了少量有代表性的〝大数据〞相关商业。