海量数据的意义

最新推荐文章于 2022-08-27 15:26:43 发布

刘江总编

最新推荐文章于 2022-08-27 15:26:43 发布

阅读量3.4k

点赞数

分类专栏：总编观察文章标签： facebook google 互联网产品云计算分布式计算

本文链接：https://blog.csdn.net/liujiangce/article/details/6621630

版权

总编观察专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文是《程序员》2011年8月刊的卷首语。

我曾经说过，云计算是目前最大的技术趋势，也是以互联网为基础的新一代技术的总称。宽泛地看，其中除了基础设施层面的新型硬件与数据中心、分布式计算、海量数据存储与处理等等技术之外，还包括人与人之间更多的交流方式（社会化网络），终端设备的多样化（移动），无所不在的数据采集方式（物联网），和新一代自然用户界面、用户体验。

其中，海量数据将发挥核心作用。

互联网企业与传统行业（包括软硬件和电信厂商）相比最大的优势，就是几乎没有任何中间层，所有最终用户使用产品的行为数据可以轻易地保存在服务器上，通过对这些海量数据的挖掘、分析和图形化呈现，能非常清晰地揭示用户的行为模式，加深对用户需求的理解，汲取用户的集体智慧，从而为产品研发人员决策提供依据，同时不断提高系统的智能化水平，提升产品用户体验。而社会化网络更进一步，用户都以登录甚至实名为主，可以为每个人提供个性化的服务。

早在2005年，Web 2.0的主要倡导者Tim O'Reilly在经典文章“什么是Web 2.0”中就强调过“数据是下一个Intel Inside”，也就是说，就像PC时代Intel芯片是核心一样，数据是新一代计算的核心。（细读此文，我们会发现云计算与Web 2.0之间的紧密关系。）

2007年Google承认，在很多情况下能够访问海量的数据比好的搜索算法还要重要。而它的竞争对手也在抱怨彼此的差距主要在用户搜索数据的积累上。Google的很多产品，比如翻译和语音输入，同样得益于海量语料库的支持。2009年Google的研究总监Peter Norvig等人发表了《The Unreasonable Effectiveness of Data》一文，将他们的经验总结为简单的模型加上海量的数据比精巧的模型加上较少的数据更有效。也许正是因为如此，Google首席经济学家Hal Varian才会坚称数据科学家将是未来十年最具吸引力的职位，他认为管理者甚至中小学生，都应该具备对数据处理、提取洞察、理解和讲述的能力。

Facebook更是众所周知的数据驱动无所不在的公司。2006年，为了找出Facebook在某些学校不受欢迎的原因，公司从华尔街聘请了数据科学家Jeff Hammerbacher（现为Cloudera的首席科学家），他和其他几位同事组成了最早的数据团队，在不知不觉中自行研发了一个商业智能系统。这成为Facebook日后产品成功的重要基础，不仅很好地支撑着工程团队，而且在产品设计决策中也起到了关键作用——他们的设计师也能写代码，用真实内容和页面来做产品原型，然后上线测试，快速迭代，2009年时设计团队每周提交40次。

可以想象，随着云计算的发展，世间每个人每件东西每天每秒所产生的新数据（位置、状态，所见、所闻、所思、所言……）都有能够被更完整和丰富地数字化，并全部联入互联网。近年来互联网领域的创新几乎都可以纳入这一模式：Google将每次搜索和去向存储下来，Facebook将人们之间的各种交互数字化，Amazon、淘宝等电子商务网站将商品流通的信息、人们的购买喜好数字化，Twitter等微博将人们稍纵即逝的想法和谈话记录下来，Foursquare等LBS应用将人们去过那里的信息记录下来，Instagram、Color等移动应用捕捉瞬间的图片和音频、视频……

这其中蕴含的巨大潜力将是空前的，影响极为深远。互联网企业甚至更多行业企业之间的竞争将围绕谁拥有更多详细的用户数据展开。我们很有可能打造一个智能系统，实现计算机科学长久以来的人工智能梦想。