大数据进行时:聚光灯后的四大推手

这是一篇来自留英信息工程博士周文哲(@Wennie文哲)的一篇投稿,她于去年创业成立幸福佩智公司,专注于提供 Hadoop 的大数据处理与分析解决方案,产品已被应用到互联网广告、物联网等行业。

“大数据”这一话题在国内从今年起受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,出现了实际的应用,产生了实际的效益。周文哲这篇投稿,为我们详细揭示了大数据盛行背后的原因,以及大数据在国外发展的情况。

“忽 如一夜春风来,千树万树梨花开”是唐朝的诗人岑参描写西北边塞早雪奇景的诗句,用来形容大数据的盛行,莫不为过。就在几个月前,大数据似乎还只是一个遥远 的话题,短期内就“如一夜春风”吹来,在各种媒体、论坛、甚至政府战略中频频露脸,那么,是什么推动了它的盛行呢?这些聚光灯背后,又有着怎样的故事?本 文我们将从行业发展、应用普及、技术进步、金融和政策鼓励四个方面来探讨大数据的幕后推手。

推手一:数据的迸发

大 数据的概念或许大家并不陌生,“大”字不仅意味着数量的庞大,还代表着数据种类繁多、结构复杂,变化的速度也非常快,这些特征的出现与互联网的发展息息相 关。从搜索引擎、社交网络的普及到今天人手皆是的移动终端,互联网上的信息总量正以每年 50% 的增速不断膨胀,其中 90% 的信息来自近三年,包括每个月 Facebook 上分享的 30 亿条内容,每天 12 TB 的 Twitter 信息,每天淘宝上超过 30 亿条店铺、商品浏览纪录及上千万的成交、收藏纪录等等。据 IDC 统计,2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方),如果把这些数据刻录到 CD 碟片中,其摞起来的高度等于地球到月球的距离!

数 据不仅在“量”上疯狂的增长着,在“源”上也不断的丰富着。目前世界上产生的数据,有近 80% 是由个人用户产生的;据估计,到 2020 年全球将有 500 亿个设备连入网络,地理位置、网络浏览行为、健康数据、甚至基因信息等,都成为技术为个体服务的有效资源,这也意味着商家对每一个用户都将有精准的了解, 真正做到与客户的“零距离”接触。正是这种巨大的商业利益的驱使,使得大数据成为国际一流企业竞相投入使用的竞争利器。

推手二:应用的普及

今 年年初,美国一名男子闯入了他家附近的 Target 店铺(Target 是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券,她才 17 岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲 打来电话道歉,因为 Target 发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。

诸 如此类的应用,在国际零售行业巨头中已屡见不鲜,我们以 Target 作为首例,是因为它的案例的确留给人强烈的印象:数据的力量,不仅让商家提升了自己的业绩,还让客户为之心甘情愿买单。Target 创建了一套女性购买行为在怀孕期间产生变化的模型,不仅如此,如果用户从他们的店铺中购买了婴儿用品,Target 在接下来的几年中会根据婴儿的生长周期情况定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。

实 际上,诸如沃尔玛、Tesco(英国零售巨头)等巨头已从数据中获得了巨大的利益,也因此巩固了自己在业界的长盛不衰。以 Tesco 为例,这家全球利润第二大的零售商从其会员卡的用户购买记录中,充分了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,并基于这 些分类进行一系列的业务活动,比如,通过邮件或信件寄给用户的促销可以变得十分个性化,店内的上架商品及促销也可以根据周围人群的喜好、消费的时段来更加 有针对性,从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助 Tesco 每年节省 3.5 亿英镑的费用。

在互联网行业,大数据更是为电商、广告商们提供了丰厚的回报。雅虎于 2008 年初便开始启用大数据技术,每天分析超过 200PB 的数据,使得雅虎的服务变得更人性化,更贴近用户和客户。它与雅虎 IT 系统的方方面面进行协作,包括搜索、广告、用户体验和欺诈发现等。AOL 也设立了 300 节点的服务器集群,将在其下属系列网站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用户浏览信息收集起来,分析和预测这些用户的行为,以便有针对性的为每个月 1.8 亿独立用户进行个性化广告服务。

亚马逊(Amazon) 而言,数据技术的应用更是为其成为一家“信息公司”,独占电商领域鳌头奠定了稳定的基础。为了更深入的了解每一个用户,亚马逊不仅从每个用户的购买行为中 获得信息,还将每个用户在其网站上的所有行为都记录下来:每个页面的停留时间,用户是否查看 Review,每个搜索的关键词,每个浏览的商品等等,在亚马逊去年 11 月推出的 Kindle Fire 中,内嵌的 Silk 浏览器更是可以将用户的行为数据一一记录下来。这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物 流、及广告业务上都有着极大的效益回馈。

数据技术的应用不仅在零售和互联网行业获得极 大回报,其带来的经济价值使得各行业均为之“竞折腰”。在能源行业,Opower 使用数据来提高消费用电的能效,并取得了显著的成功。作为一家提供 SaaS 服务(软件服务)的创新公司,Opower 与多家电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比,被服务的家庭每个月都会受到一份对比的报告,显示自家用电在整个区域或全 美类似家庭所处水平,以鼓励节约用电。Opower 的服务以覆盖了美国几百万户居民家庭,预计为美国消费用电每年节省 5 亿美元。

最 值得一提的是生物信息行业。生物信息是继互联网行业之后数据迸发最迅速的行业,并将远远超过互联网产生的数据:人类用 0 和 1 创造了虚拟世界,而造物主用 A/C/T/G 四种元素创造了万物生灵,生命的产生、发展、消亡的奥秘尽在其中。随着测序技术的发展,全基因组的测序价格由十年前的上亿美元降至今天的数千美元,这使得 更多人、物种的 DNA 信息的获取成为可能。个体全基因组信息的获取,使得个性化诊疗服务成为可能。在美国华盛顿大学,研究人员通过对一位白血病患者的基因信息进行分析,成功的 找出了导致癌细胞迅速扩散的致癌基因,并发现了能够阻止该基因产生作用的药物,有效的延长了患者的生命。

诸如以上的应用,在悄无声息的进行着,是数据带来的市场价值推动着一切的进行,亦构成了“引爆”大数据产业发展的第二个推手。

推手三:技术的发展

技 术与应用之间从来就是相辅相成的关系:应用的实现需要技术的支撑,而技术的进步能推动应用的普及。在以上实例应用的背后,是大数据技术让一切成为了可能。 本文中,我们所指的大数据技术,主要是以 Hadoop 为代表的非关系型数据库系统及分布式运算架构,在这一部分,我们将简要介绍其发展背景。

上 世纪 60 年代末关系型数据库技术的出现使得数据能按照固定的结构进行存储,方便用户根据数据属性进行查询的同时,也使得管理大为简便。然而,数据量的爆发增长和数 据结构的多样性,不仅要求能快速录入、提取海量数据信息;还要求数据库随着数据量的增加而灵活扩展、数据存储不局限于固定的结构。这时,传统的关系型数据 库技术已无法满足这些需求,于是,NoSQL 技术在上世纪末期开始出现。

然而,非关 系型数据库技术一开始并未得到广泛应用,直到 2009 年,在搜索引擎、社交网络等互联网应用盛行使得数据量迅猛增加后,才开始为人们所重视并投入使用。发展到今天,NoSQL 技术已经形成了一系列不同用途的数据库管理系统,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存储系统(Wide Column Store),MongoDB、CouchDB 等文件存储系统,Neo4J 等图形数据库系统。由于列族存储系统支持多种类型的数据存储,目前应用的范围最为广泛。

2004 年初,Google 开始研发 BigTable 非关系型数据库系统,它是建立在 Google 文件系统之上的一种压缩的、高扩展的数据库技术,可以让 Google 对于自身新增业务处理进行低成本的扩展。8 个月后,BigTable 开始投入内部使用,后来被广泛应用于一系列的 Google 应用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。为了解决海量信息的计算问题,Google 又研发了 MapReduce 的并行计算技术架构,使得 T 量级以上的数据可以并行处理,并通过 BigTable 来存储和更改资料,有效的支撑了 Google 日益增长的数据处理任务。而 BigTable 这一模型,启发了众多“后来者”的数据技术。

Hadoop 便是其中一员。这个由 Yahoo! 的前员工 Doug Cutting(现任职于 Cloudera 公司)最初负责开发的项目,已成为大数据行业的技术中心。Hadoop 是由一系列开源技术组成的分布式架构,包括 Hbase 列数据库系统、MapReduce 并行计算框架、HDFS 分布式文件系统、Mahout 算法库等等,由于其扩展性高、数据种类灵活、成本低,Hadoop 被广泛应用于各行各业,包括互联网、生物信息、物联网,甚至美国宇航局 NASA 也用 Hadoop 来处理从宇宙望远镜中传回海量无线电数据,其数据量达到每秒钟 700TB!

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,其中包括 IBM甲骨文(Oracle)、微软EMC、 Teradata 等行业领先的数据解决方案提供商,使得 NoSQL 技术成为现存 SQL 数据解决方案的强有力补充;众巨头纷纷推出相应产品,来适应其客户数据业务的爆发增长,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的产品使得开源技术有效的为商业客户提供服务,而其创始人 Jeff Hammerbacher 亦被福布斯评为美国 30 位 30 岁以下科技领域的明日之星之一。

目前,Hadoop 技术以及被广泛应用了各大互联网公司,包括 Facebook、亚马逊、苹果、AOL、Ebay、Twitter、Netflix、淘宝、百度等等;在生物信息行业中,也初步得到了应用,如大型制药公司提供研究服务的 NextBio 公司,设立了 100 个节点的 Hadoop 集群来帮助制药公司进行基因研究。先进技术的发展为企业提供了高效使用数据的便捷工具,是促进大数据行业发展的第三大推手。

推手四:金融与政策的鼓励

行 业的发展,除了市场需求的驱动、技术水平的进步,还离不开资本与政策的瞩目。据麦肯锡报道,大数据已经实现了显著的经济价值:为美国的医疗服务业每年节省 3000 亿美元,为欧洲的公共部门管理每年节省 2500 亿欧元,为全球个人位置数据服务提供商贡献 1000 亿美元,帮助美国零售业净利润增长 60%,帮助制造业在产品开发、组装等环节节省 50% 的成本等等。大数据体现的巨大经济价值,成功地获得了金融界和政界的亲睐。

2011 年 11 月,曾投资 Facebook、DropBox、Cloudera、沃尔玛等 200 多家公司的硅谷著名风投机构阿克塞尔合伙人公司(Accel Partners),宣布成立一个金额 1 亿美金的大数据基金,专注于投资两种类型的数据创业公司:建设包括存储、安全和管理在内的新型架基础构类公司,以及在基础架构之上进行如 BI、行业应用、移动应用等开发的公司。这样的投资方向让我们看到,大数据的爆发增长使得数据驱动、数据制胜成为必然,那些能够解决这个过程中因数据而产 生的各种问题的创业公司,将在市场上得到自身价值的回馈。

今年 4 月,成立于 2003 年的数据软件公司 Splunk 在纳斯达克以 16 亿美元的市值上市,给大数据行业打了一管兴奋剂。Splunk 提供的软件产品可以用于监控、分析实时及历史的机器数据,这些数据可以是日志、配置文件、消息和告警等。Splunk 可以帮助企业的 IT 管理员集中监控分布部署在多个数据中心的成千上万台服务器,免去了错误发生时需要逐个排查纠错的苦恼。从创立至今,Splunk 的客户数量已接近 4000 家,财富 100 强的大部分成员皆为其客户,包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、 Swisscom、Shutterfly、Heroku 以及美国劳工部和能源部等。

与 此同时,政府也将大数据列入了国家发展战略。今年 3 月底,奥巴马政府宣布,白宫将投入 2 亿美金的研发费用来推动大数据技术的发展,其主要目标是为了让大数据技术更好的服务于科研、环境、生物医药、教育和国家安全领域。同时,奥巴马政府对于投 资的核心技术领域,也作出了明确的表示,将主要用来鼓励那些在数据采集、存储、管理、分析和共享等方面的技术研发。

综上所述,我们可以看到,大数据成为今天众人瞩目的焦点,是经过了在市场、技术、资金、以及政府多方因素推动的结果。在文章的最后,我们列出三个关键词来总结大数据技术在实际应用中的特性,希望帮助读者对于大数据的应用有一个概览性的了解。

人才。 人才是大数据技术能够真正发挥其价值的首要因素,也是最大的挑战。据麦肯锡调查,至 2018 年,美国市场将出现近 20 万深度大数据分析的专业人才、150 万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累,还需要有编程、业务知识等综合能力,是稀缺的复合型人才;而对于 聘用企业来说,也很难有合适的职位适合此类人才。

用户为中心。大数据技术的应用,可以帮助企业从业务的整体设计角度,发展到针对客户的个性化服务,例如,零售企业对于过剩的库存会进行整体促销,如果对于用户购买数据进行分析,就可以针对用户的喜好进行个性化促销,同时也根据用户的购买行为对库存进行准确的调配,以减少浪费。

行业化。 在基础的数据采集、存储及查询方面,各行业所通用的技术架构并无显著差异;但由于每个行业的属性及需求各异,数据分析将具有较强的行业性。例如,生物信息 行业中,进行基因诊断所用到的比对数据库需要专业的生物知识来进行翻译,更为深入的致病基因锁定则需要用到一系列专业算法及实验设计;在能源行业,智能电 网中的电力调度,则需要通过无数的传感器数据预测下一时刻电网中各节点的配电需求,这就要求系统对于实时海量数据的高效处理能力,以及预测算法的精准。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《大数据之路:阿里巴巴大数据实践》pdf文档是CSDN上提供的一本关于阿里巴巴大数据实践经验的电子书。阿里巴巴作为全球领先的电商平台之一,拥有庞大的用户数量和海量的数据资源。通过大数据技术的运用,阿里巴巴成功地实现了一系列的数据分析和应用,为企业的发展和决策提供了强有力的支持。 该书从阿里巴巴大数据实践的背景、发展历程、技术体系等多个方面进行了系统全面的介绍。首先,书中详细介绍了阿里巴巴大数据实践的背景,即大数据技术对企业的重要性和应用场景的变革。然后,对阿里巴巴大数据实践的发展历程进行了详细描述,包括从初期的数据采集、存储到后来的数据处理、分析和挖掘的全过程。同,该书还对阿里巴巴大数据技术体系进行了深入的解读,包括数据仓库、分布式计算、机器学习等核心技术。 此外,《大数据之路:阿里巴巴大数据实践》 还重点介绍了阿里巴巴大数据应用的一些关键案例。阿里巴巴通过对用户行为进行数据分析,提供个性化的推荐和定制化服务,帮助企业优化用户体验,提升销售业绩。同,通过大数据技术的运用,阿里还能够有效预测风险和异常,提高平台的安全性。 总的来说,《大数据之路:阿里巴巴大数据实践》这本书对于大数据技术在企业中的应用和实践有着很大的参考价值。无论是对于从事大数据岗位的专业人士,还是对于对大数据技术感兴趣的读者来说,这本书都是一本值得阅读的重要书籍。 ### 回答2: 《大数据之路:阿里巴巴大数据实践》是一本详细介绍阿里巴巴大数据应用的书籍。这本书通过阿里巴巴的实际案例,展示了大数据分析在电子商务领域的应用和价值。 书中提到,阿里巴巴从早期就开始构建大数据平台,以支持公司的业务需求。他们通过大数据分析,能够深入了解用户行为、购物偏好以及市场趋势等信息,从而及调整产品策略和营销策略。这种数据驱动的决策模式,不仅使阿里巴巴更加敏锐地抓住商机,也提高了用户体验和业绩。 在书中,也介绍了阿里巴巴独特的海量数据处理技术和算法。他们通过自主研发的MaxCompute等技术,能够实现对数以PB计算的海量数据进行高效处理和分析。同,阿里巴巴也积极探索人工智能技术在大数据分析中的应用。他们利用机器学习和深度学习技术,构建了智能推荐、智能搜索等功能,从而进一步提升用户体验和服务质量。 此外,书中还介绍了阿里巴巴大数据实践的组织和管理模式。阿里巴巴建立了专门的大数据团队,负责数据资源整合、分析和应用。他们通过数据技术培训和分享会等方式,不断提升数据分析人才的能力和水平。同,阿里巴巴也注重数据的安全和隐私保护,采取了一系列的技术和措施,保障数据的安全性和合规性。 总的来说,这本书详细介绍了阿里巴巴在大数据领域的实践经验和技术创新。通过大数据应用,阿里巴巴实现了商业模式的转型和价值的提升,为其他企业提供了宝贵的借鉴和参考。 ### 回答3: 阿里巴巴是中国领先的互联网科技公司之一,也是全球最大的电子商务公司。在大数据代的浪潮中,阿里巴巴积极投入并实践了大数据技术,将其运用到公司的各个方面。 《大数据之路:阿里巴巴大数据实践》是一本介绍阿里巴巴大数据实践的著作,通过该书,我们可以了解到阿里巴巴在大数据领域的发展历程和战略布局。 该书涵盖了阿里巴巴使用大数据技术解决实际问题的案例,包括电商、金融、物流、人工智能等多个领域。阿里巴巴将大数据作为核心技术,通过对用户行为和交易数据的分析,提供个性化的推荐和优化的服务,从而实现了业务的增长和提升。 阿里巴巴的大数据实践不仅提供了基于数据的商业应用,还带动了整个大数据产业的发展。阿里巴巴通过共享自己的大数据平台,促进了合作伙伴和开发者的创新,形成了一个生态系统。 在《大数据之路:阿里巴巴大数据实践》中还介绍了阿里巴巴对大数据安全和隐私的重视。阿里巴巴通过构建完善的安全系统和隐私保护机制,保障了用户的数据安全和隐私权益,赢得了用户的信任。 总体而言,《大数据之路:阿里巴巴大数据实践》是一本值得阅读的著作,通过阿里巴巴的大数据实践,我们可以了解到大数据在商业应用中的巨大潜力和重要性,同也可以了解到阿里巴巴在大数据领域的创新和领先地位。这对于正在或计划进入大数据领域的企业和个人都具有参考和借鉴的价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值