大数据日知录——大数据是什么?(一)

目录

一、技术范型转换

二、大数据商业炼金术

三、大数据在路上


一、技术范型转换

传统的互联网与商业数据的存储和处理主要使用关系型数据库技术,数据库企业巨头 Oracle 是
这一时期的代表企业。随着大数据时代的到米,传统关系数据库在可扩展性方面的缺陷遂渐暴露出
来,即使采用并行数据库集样,最多也只能管理百台左右的机器.而且这种并行数据库要求高配置
的服务器才可正常运转,其管理海量数据成本之高可以想象。

对于很多应用场景,尤其是互联网相关应用,并不像银行业务等对数据的一致性有很高的要求而更看重数据的高可用性以及架构的可扩展性等技术因素。因此 NoSQL 数据库应运而生,作为适应
不同应用场景要求的新型数据存储与处理架构,其和传统数据库有很强的互补作用,而且应用场景更加广泛。Yahoo 公司部署了包含 4000 台普通服务器的Hadoop 集群,可以存储和处理高达 4PB 的数据。整个分布式架构具有非常强的可扩展性。NOSQL 数据库的广泛使用代表了一种技术范型的转换。

大数据处理的目标是从海量异质数据中挖掘知识,包含了数据源收集、数据存储管理、数据分
析与挖掘以及数据展现与获取
等几个序列进行的步骤,图0-1是大数据处理流程的整体架构图。
图中可看出,其形成了数据流处理的多个不同层次。

 

在数据存储与基本处理层之上,是数据控掘与分析技术层。大数据处理的目标是沙里淘金,从
海量原始数据中挖掘领域知识是其根本目的,尽管 NoSQL 数据库提供了数据存储的场所与简单的读写处理,但是要挖掘更深层的知识,更依赖于利用数据挖掘、机器学习、时空序列分析等复杂技术手段来从数据中获取知识。
数据可视化也是大数据处理中的重要一环,其主要目的是将挖掘出来的知识以形象易于理解的
形式呈现给用户,是所抡掘知识的具体表现方法。之后,就可以在各种不同的数据接收设备上来对
控掘出的知识进行获取。
海量原始数据经过上述层次处理步骤,就转换为用户易于理解和接受的知识,目前各种层次的
相关技术与系统方兴未艾,都处于高速的发展过程中。
以上所述是粗线条地对大数据处理流程进行了介绍,如果将目前大数据领域涉及的技术子领域
及其在整个技术体系中的位置进行梳理,可以得到图 0-2 所示的大数据处理技术架构图,其基本大数据处理涉及的各方面技术点,本书内容即按照这个技术架构对各个子领域分门别类按章节
展开详述。部分内容(数据收集、监控系统、工作流与可视化)因其处于相对不甚重要的边缘地位
或者其技术性不强所以并末进行讲解。 

 

二、大数据商业炼金术

1.互联网公司:Netflix

2.传统IT公司:IBM

3.金融:Derwent基金

4.传统零售企业:沃尔玛

三、大数据在路上

大数据概念最早由世界级领先的全球管理咨询公司——麦肯锡提出,之后获得了全球范围工业
界、学术界、商业界的追捧与推动,形成了产业共振。大量初创公司、老牌互联网与1T公司、商业机构都轰轰烈烈地投入其中。

财大气相的巨型公司致力于提供 “大数据〞存储与计算的基础架构与平台,亚马逊的云存储与
弹性计第平台(AWSEC2)、微软的 Azure云计算平台、谷歇的 App Ensine 都是其中的俊佼者

通用的云存储与计第平台可以对其他企业和机构提供按需服务,这对于初创企业节省创业成本起到了很大的推动与促进效用,在创业初期用户较少的情况下,可以花费较少的租金租用云平台的基础设施,一旦流量激增,只需扩大资源租用数量就可以快速满足暴增的用户需求。相较于传统的创业企业自己维护存储与计算系统的方式,这种平台租用的方式不仅节省创业成本,也增加了IT资
源管理的快速响应和灵活性。亚马逊公司云平台已经为成干上万家创业公司和机构提供了相关服务。比如近两年名声大振的图片共享型社交网站Pinterest 就租用了亚马逊 AWS 存储服务,纳斯达克每天会上传超过 50 万个文件到亚马逊云存储平台。游戏化平台服务公司 BigDoor 表示:
“AWS 平台帮助我们以极低的成本快速升级系统。在任何时候我们都有运转良好的 12 台数据库服务器、45台应用服务器、6台静态服务器和6台分析服务器。如果流量或处理能力超过了目前服务能力,我们的系统会自动升级,如果不需要就会自动降级,从而节省费用。”

在这波“大数据”浪潮中,更多的相关中小型创业公司逐浪起航,其中有 Cloudera、 MapR
Horon Works 这种完善分布式计算生;态系统的技术型公司,也有 DropBox、 Zillabyte、Decide 这种面向企业和消费者直接提供“大数据”服务的初创公司。
Cloudera、MapR 和 HortonWorks 都是目前维护与改进 Hadoop 平台的主力技术公司,它们一方
面改进现有系统的性能和功能方面的缺点,另一方面也在Hadoop 平台的易用性方面下了很大功夫。以促进这个平台的更广泛流行。类似的技术公司还包括文档 NoSQL 工具 MongoDB 的开发方 10gen等很多新型技术创业公司,它们为整个〝大数据” 生态体系提供了基础的技术平台。DropBox 是免费网络文件同步工具,用户可以方便地存储和共享感兴趣的各种类型的文件,
2007 年创立以来,DropBox 正以年用户增长 10 倍的数据获得了用户的广泛欢迎:Zillabyte 提供了系列大数据分析算法和工具,帮助企业用户对海量数据进行深入挖掘以辅助企业决策:Decide.com
则为消费者提供了对大数据进行实时 商业分析服务,比如它会通过大量数据的趋势分析.告知用
何时以什么价格买入某类电子产品是最适宜的。这里只列举了少量有代表性的〝大数据〞相关商业。

内容简介 大数据是当前最为流行的热点概念之,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件 体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。 《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lambda-小张

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值