为什么需要数据科学(Stanley C. Ahalt)

最新推荐文章于 2020-11-18 18:06:47 发布

RoQuant

最新推荐文章于 2020-11-18 18:06:47 发布

阅读量1.9k

点赞数

文章标签：数据科学

【题】为什么需要数据科学
【作者】斯坦利·霍尔特(Stanley C. Ahalt)
【出处】《中国计算机学会通讯》第 9 卷第 12 期 2013年12月刊
【说明】本文由徐昆根据CNCC 2013 特邀报告由整理而成。

关键词：数据科学

本文将探讨数据科学(data science)带来的前所未有的机遇。这不仅代表着一门新学科的诞生，更重要的是，数据科学将在未来 30年中极大地影响和推动科学和经济的发展。正如计算机科学在过去 30 年中对全球生产力、生活方式和经济发展等多方面产生的革命性影响一样，海量、可用、无所不在的数据必将引发社会发展的巨大变革。

数据科学的背景与意义

数据的爆炸性增长

全球现在有多少数据？数据的产生速度有多快？这里有一组直观的数据：过去两年中我们产生的数据量占有史以来所有数据量的 90%；从 2010 年开始，每两天产生的数据量是 2003年前所有数据量的总和；现在，每 10秒产生的数据量足够装满美国国会图书馆。数据的增长速度从图1（关于各个时代最具代表性公司的数据量）中可以清晰地看到：从20世纪 90年代开始，全球数据量开始了爆炸性的增长。

图1　各个年代代表性公司的数据量（来源:Wall Street Journal, Special Report on Big Data, March 11, 2013）

2003 年左右，我们就曾指出，世界已经从一个依靠模型和假设、数据稀缺的时代，过渡到一个模型和假设已逐渐清晰、数据冗余的新时代。现在的主要挑战是理解和探索数据——这从根本上来讲是一个全新的挑战，同时也蕴含了无限的机遇。

为什么数据增长得如此之快？主要原因是科技的快速发展。互联网使得数据成为了我们生活的一部分——只需要打开电脑，接入互联网，“谷歌”一下，就能搜索到想要的内容。互联网的出现使得数据的传播、共享和发现变得更加容易；更快的处理器和更大、更便宜的存储设备使得数据的产生、处理以及存储变得更加简单，云计算加速了这种趋势；物联网的发展、传感器的大量涌现也使得实时数据呈现井喷态势——已有超过 1 万亿个传感器接入了互联网，2013 年的谷歌I/O（Innovation in the Open，开放中创新）大会就布置了几百个传感器来收集周围数据；生物计算、基因、制药等研究领域每年可以产生 50EB（1EB=2⁶⁰B ）的数据。网络设备的普及和互联以及网络基础设施的高速发展最终带来数据爆炸性的增长。

大数据带来的影响

对许多行业来说，数据意味着金钱。通过分析数据可以知道：客户如何使用我们的服务，客户对产品的哪一方面不满意，我们该如何改进产品等。我们还可以利用数据来预测用户行为，揭示产品链条中潜在的问题并对其进行及时修正。以下几个数据可以说明数据所带来的影响：美国联合快递公司 (UPS)通过分析其遍布全球的成千上万辆送货车辆上的传感数据，每年可以少跑 530万英里路程，减少发动机空转1000万分钟，节约 65 万加仑燃料，减少碳排放量 6500公吨；英特尔公司通过分析海量数据，基于预测算法帮助发现潜在的优质经销商，带来 2000万美元销售金额的提升，减少了处理器测试时间，预计到 2014 年可以节省 3000万美元的成本。

大数据还可以带来哪些机遇呢？下面一组数据可能更加激动人心。根据 2011 年麦肯锡全球研究所的报告以及2012年通用电气的研究报告预测：如果合理地使用数据，美国在医疗保健方面每年可节约 3000亿美元，超过了西班牙全年在该领域的花费；欧洲公共管理部门每年可节省 2500亿欧元；有分析指出，在重工业，仅仅提高 1%的生产效率或者降低 1% 的维护成本，每年就可以节省上千亿美元的资金。根据 2010年《经济学家》周报的报道，利用数据分析指导决策，公司可以提高 5%~6%的生产率；2012~2013美国劳动统计局的报告指出，到 2020 年，美国与数据相关的工作机会将增加约 32% 。不仅如此，就全球范围内看，到 2015年，有关大数据及其分析方面的工作有望超过 400万个（来源：icrunchdata Big Data Jobs Index）；到 2015年，美国将有 190 万新的大数据工作机会，但由于人才短缺，仅有 1/3 的岗位能招到人（来源：Gartner, October 2012）。尽管我们拥有大量数据方面的工作岗位，但显然我们准备得还不够。2012年的一项调查（来源：The Big Data London Group inRaywood, 2012）指出，78%的受访者表示存在大数据人才短缺现状。而另一个调查（来源：NewVantage Partners 2012）指出，60% 的受访者表示很难找到大数据方面的专业人才，50% 的受访者表示：在发现和雇佣懂得如何应用大数据的业务领导和经理方面存在困难。2013年 9 月在迪拜举行的环球同业银行金融电讯协会(SWIFT)的国际银行业务研讨会上，许多嘉宾和代表多次提到，找到具有大数据经验的人太难了，找到数据科学家更是难上加难。

处理大数据需要一些当前数据分析师所不具备的编程和分析能力：包括需要较强的数学和统计分析背景，熟悉新的统计编程语言（如R语言），了解分析建模技术以及具备在大数据上做实验的能力，了解数据架构（以搭建TB级的数据库），以及能够管理诸如 Hadoop之类的软件框架等等。除了需要上述硬技能（计算机科学方面的能力）外，大数据处理还需要一些软技能，如商业头脑和交流能力，从而完成在大数据上进行预测分析、复杂事件处理、规则管理、开发商业智能工具和数据集成等任务。

数据科学的机遇和挑战

大数据的特点

大数据绝不仅仅意味着用更大的数据库来保存数据，还需要分析和处理这些数据。由于数据的格式千差万别，有着不同的处理方式，还存在大量冗余，因此需要有效的方法来衡量数据的价值。

大数据具备以下 5 个“V”的特点：

(1)体量 (volume)：“体量”庞大是最明显的一个特征；
(2)速度 (velocity)：许多数据（如零售交易、通信、工业传感的数据）需要实时分析和处理；
(3)多样性 (variety)：数据格式多种多样，如医疗数据就包含图像、测试结果、病历、医嘱等多种形式；
(4)真实性 (veracity)：所收集的大量数据本身可能有错，许多数据可能是无用的，而数据的质量对于分析和决策来说相当重要；
(5)价值 (value)：在大量数据面前，我们需要判断数据的重要性和稀缺程度，来决定我们需要保留的数据以及保留的时间。

数据的使用情况也呈现多样性：不同数据中每个“V”的重要性是不同的，甚至同一个数据集中每个“V”的重要程度也会发生变化。大数据的管理、分析的硬件和技术是非常昂贵的，对于小企业和新入行者，会成为一个不小的壁垒。

因此，我们需要一整套科学、系统的理论、方法来指导大数据的分析和处理，这就是数据科学。准确地讲，数据科学通过系统性的研究数据的组织和使用，可以促进研究发现、改进关键决策过程等。数据科学家必须能够获取数据，对他们进行数学建模，以及懂得建立模型所需的数学理论。他们必须能发现并阐明数据揭示的问题，即从数据中发现合适的问题。需要指出的是数据科学并不是一个新概念，它已经有一段历史了：1962年，约翰·图基 (John W. Tukey)就讨论过数据分析的未来；2002年，国际科学技术数据委员会 (Committee on Data for Science and Technology,CODATA) 创办了第一本《数据科学》期刊；2007年，复旦大学成立了数据科学研究中心；2013年，《福布斯》发表了一篇回顾数据科学简短历史的文章，等等。

机遇和挑战

如今，有越来越多的组织在收集更多的数据，他们都有一个共同的目的：从数据中挖掘价值。大多数情况下，价值以决策的形式出现。我们有许多数据驱动决策的成功案例，如：(1)通过监测网络流量来检测和抵御网络攻击；(2)利用临床和基因组数据来提供个性化的医疗方案；(3)挖掘系统日志来诊断违反服务等级协议(service-level agreement, SLA)的情况以及优化大型系统的性能；(4)基于用户日志和反馈进行广告推荐等。

尽管利用大数据来分析并做出决策本身已是一个大的挑战，但更大的挑战是数据的增长速度极快，甚至快于摩尔定律。根据最近的一份报告（见图 2），数据每年增长约 64%，某些数据如粒子加速器和脱氧核糖核酸 (deoxyribonucleicacid, DNA)测序仪产生的数据则增长得更快。这意味着未来我们需要更多的资源才能做出相同的决策。

图2　摩尔定律、数据增长以及计算误差

（https://amplab.cs.berkeley.edu/2013/02/07/for-big-data-moores-law-means-better-decisions/）

我们要问的一个问题是：随着数据量的增加，数据体现的价值也增加了吗？为此，要先弄明白从大数据中提取什么样的价值，做出怎样的决策。解决快速增长的数据带来挑战的关键是，决策时我们并不总是需要完全精确的数据，例如，在检测网络服务器违反服务等级协议的情况时，我们并不需要知道完全精确的反应时间，只需要知道该值是否超过了服务等级协议的要求。在大多数情形中，只要误差足够小并且有界，近似的结果就可满足实际需求。

采取近似方案的另一个原因是，由于收集的数据往往包含噪声和误差，准确的计算并不总能保证完美的结果。这意味着如果我们保证计算误差远小于输入误差，就不会影响结果的质量。允许采取近似方案也让我们可以仅仅在一个子集，而不是整个数据集上进行计算。另外，计算误差取决于所采用的数据集大小。许多计算方法的标准误差反比于样本大小（假定样本独立同分布）。这就意味着数据的增长不再是一个严重的问题。即使数据的增长快于摩尔定律，计算误差也不会变大：摩尔定律使得我们可以处理越来越大的数据集，并产生越来越小的误差，误差每3年可降低一半（图 2）。在这个意义下，摩尔定律可让我们不断提升计算的准确性，获得更快的计算速度以及提升数据分析的能力。对于大数据来讲，摩尔定律意味着更好的决策。

另一个问题是，数据越多越好吗？一种纯数据论的观点认为，更多的数据可以带来更精确的结论和更多的发现。只要数据足够多，就能说明一切。“我们只需要将数据扔进世界最大的计算集群，让统计算法去发现科学家不能发现的规律。”（来源：Chris Anderson, Wired, June 2008）。也有观点希望保持数据和模型之间的某种平衡。在一个不用借助模型就可以收集数据、分析数据、从数据中得到结论的时代，我们难道应该放弃传统的“假设、建模和测试”这种科学的研究方式吗？一种担心是：人们会极端地认为没有数据支持的所有理论或假设都是不可信的（来源：George Andrews, Notices of the AMS, August 2012）。但我们知道，历史上许多著名的发现都是先提出理论，之后才由数据证实。

数据的数学、成本与伦理

数据的数学建模

许多大型数据中心（如谷歌，Cassandra,HBase, Bigtable, Accu mulo）都建立了可扩展的“三元存储”数据库，提供了对大数据的低延迟访问。移动设备的普及使得我们可以在任何地方、任意时刻访问数据。因此，我们需要解决“三元存储”数据在数学上的表达，以方便大数据算法的开发。

来自美国麻省理工学院林肯实验室的杰瑞米·凯普纳(Jeremy Kepner) 观察到“三元存储”与关联数组是同构的。D4M(databases for Matlab)数据模型将关联数组绑定到“三元存储”，形成了密集数据云分析和可视化的快速原型。关联数组可扩展为二维混合数据类型。同时，关联数组在数学上是闭合的：所有关联数组的操作结果还是关联数组。它支持各种组合的数学操作以及通过数组下标的组合查询操作，便于大数据的访问。数据桥 (DataBridge)是美国的复兴计算研究所 (RenaissanceComputing Institute, RENCI)在数据科学国家联盟 (The National Consortium for Data Science, NCDC) 基金支持下的一个项目，其目标是建立数据社交网络。脸谱(Facebook)是为人建立社交网络，数据桥则为数据集建立“社交网络”。图 3给出了 DataVerse网络（由北卡罗来纳大学教堂山分校奥德姆研究所维护）中数据集的社交网络。其中，数据集的相似性度量（网络中边的宽度）是基于对数据集中元数据的分析而得到的。

图3　数据桥：数据集的社交网络

数据成本与伦理

从图 4 可以看出，云端的存储成本与以往基于网站的方式差别不大，计算成本却可降低至原来的 1/50~1/10。而云端最大的成本是在传输方面。对于同样大小的数据，其传输成本比存储成本增加 100~1000倍。数据传输成本的增加主要是因为数据中心的巨大能源消耗。因此，现在许多新的数据中心在选址时都会特别考虑能源的成本。现在最好的处理器能量消耗为70 Pico-Joule / FLOP（皮焦耳 /浮点运算），而处理器移进 / 移出两个 64位操作数的能量消耗为 1000~3000 Pico Joule/FLOP。总之，数据计算的成本比较便宜，但数据的传输成本就昂贵得多。

图4　传输鸿沟（选自：Radu Sion, Stony BrookUniversity, 2009）

大数据的发展也会带来一些伦理方面的问题。例如，如何保护用户的隐私；每个人的生命特征信息（如基因组）也可能被泄露；基于数据的预测也并不完美，在医学上，错误的判断是可能存在的；如何给数据设置合理的访问权限？当某些隐私数据短期内无法带来价值时，继续保存它是否正确？这些潜在的问题说明，必须为数据访问、存储等设定伦理规范。

杰弗里·雷波特 (Jeffrey F. Rayport)在美国麻省理工学院《技术评论》(MIT Technology Re view)上发表的文章中给出了一些具体的建议：(1)用户应有知情权：当用户数据被收集时，用户应立即被告知。这样可以避免未经授权的数据收集。(2)允许用户自定义隐私设置，即允许用户设置可被收集的数据和不可被收集的数据，或调整隐私级别。脸谱网目前就提供这样的方式。(3)内部完善的隐私控制体系：公司内部应在所有用到用户隐私数据的流程中对隐私数据进行保护。(4)给用户带来价值：当你走进一家星巴克咖啡厅时，如果店员能够记住你的名字和你最喜欢的饮料品种，你肯定会非常高兴。对于互联网服务也是一样。用户给企业提供了隐私数据后，如果能得到一些个性化的服务，用户会更加愉悦。

对于信息隐私产权，目前美国还没有足够的法律保护措施。此外，在隐私、商业秘密和国家安全等方面的处理上也必须有所区别。对于基因组数据的隐私保护还存在一些争论。这些都是有待改善的地方。

结语

数据科学的兴起将带来如下变化：培养下一代数据科学方面的专家和领军人物，形成能够理解数据的策略、实践和科学方法，促进各学科之间的、学术界、企业界和政府间的更多合作，给那些想要更好地收集、分析、管理和使用数据的研究人员带来帮助，以及建立一套能够衡量数据价值和影响的方法学。数据科学来得正是时候！

RoQuant

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么需要数据科学(Stanley C. Ahalt)

【题】为什么需要数据科学【作者】斯坦利·霍尔特(Stanley C. Ahalt)【出处】《中国计算机学会通讯》第 9 卷第 12 期 2013年12月刊【说明】本文由徐昆根据CNCC 2013 特邀报告由整理而成。关键词：数据科学本文将探讨数据科学(data science)带来的前所未有的机遇。这不仅代表着一门新学科的诞生，更重要的是，数据科学将在未来 30
复制链接

扫一扫