数据科学作为一门学科最早是由丹麦科学家Peter Naur在他1974年的一篇关于数据处理方法的调研文章中提出。时间推进到1997年,美国著名华人统计学家吴建福(C.F. Jeff Wu)直接提出了统计学=数据科学的概念,他准确地定义了统计(即数据科学)工作的三部曲(Trilogy):
图片说明:
美国著名华人统计学家吴建福(C.F. Jeff Wu),最早成名于1983年对最大预期即EM算法中的收敛性分析的修正。EM算法被广泛应用在机器学习中的数据分类、计算机视觉、自然语言处理、医疗图像重建等领域。
丹麦科学家Peter Naur ,Naur最出名的是创造了Backus-Naur Form,巴克斯-诺尔范式,即BNF,由Naur在1960年引入形式化符号来描述ALGOL编程语言的语法,随后几乎所有的计算机编程语言都沿用BNF范式。
·数据收集(Data Collection)
·数据建模与分析(Data Modeling & Analysis)
·决策制定(Decision Making)
2008年,当时还在LinkedIn公司的DJ Patil(后成为美国联邦政府第一任首席数据科学家)和Facebook的Jeff Hammerbacher(后来成为大数据公司Cloudera的联合创始人)率先把他们的工作职能定义为Data Scientist(数据科学家)。
互联网公司是如此长于PR宣传,以至于后来大家提到数据科学与数据科学家的时候都说这两位是始作俑者。殊不知,先贤们早已低调地走过命名、定义与本质剖析这段路了。2012年哈佛商业评论(Harvard Business Review)干脆预见性地提出了“大数据科学家是21世纪最性感的工作。”
我们在本篇文章中将分别介绍数据科学这门随着云计算与大数据蓬勃发展而日新月异的学科以及在数据科学中扮演执剑人角色的数据科学家。
(1)大数据科学
提及大数据科学或统计学、大数据分析,人们难免会联想到BI(商业智能)或DW(数据仓库),有必要对它们之间的异同做扼要的分析。商业智能使用统一的衡量标准来评估企业的过往绩效指标,并用于帮助制定后续的业务规划。
商业智能(BI)的组件包括:
·建立KPI(Key Performance Index,关键绩效指标)
·多维数据的汇聚、去正则化、标记、标准化等 ·实时汇报、报警等
·处理结构化、简单数据集为主
·统计学分析与概率模型模拟等
商业智能通常会在底层依赖某种数据处理(如ETL,数据提取、变形、加载)架构,例如数据仓库……随着大数据技术的发展商业智能系统正在越来越多拥抱诸如内存计算(如IMDG数据库技术、Spark)、实时计算、面向服务的基础架构(SOA、MSA)乃至开源BI解决方案等新事务。
数据科学则可以理解为预测分析+数据挖掘。它们结合了统计分析、模式识别、机器学习、深度学习等技术,并用于对获取数据中信息形成推断(Assumptions)及洞察力(Insights)。相关方法包括回归分析、关联规则(如购物篮分析)、优化技术和仿真(如蒙特卡洛仿真用于构建场景结果)。在现有商业智能系统基础之上,数据科学又为其增添了如下组件与功能:
· 优化模型、预测模型、预报、统计分析模型等
·结构化/非结构化数据、多种类型数据源、超大数据集
上图描述了大数据科学的典型流程,从原始数据的采集、清洗、基于规则或模型的数据处理与分析、建模+算法、汇总+可视化、决策直至最终形成大数据产品(可选)。需要指出的是该流程中亦可根据业务需要形成从决策到算法/建模到数据分析的反馈通道。
大数据科学的发展从分析复杂度与价值两个维度看,可分为三个境界、五个阶段,见下图。
三种境界分别是:
·后知后觉(Hindsights)—— 典型的如传统的BI,滞后延时分析
·因地制宜(Insights)—— 典型的如实时分析
·未卜先知(Foresights)—— 典型的预测分析
上图所示的五个阶段与三种境界匹配关系如下:
· Hindsights(后知后觉) —— 描述性+诊断性
· Insights (洞察)—— 描述性+诊断性+指示性+(部分)预测性 ·
Foresights (前瞻)—— 预测性+指示性+抢先式(基于预测的行动指南)
这五个阶段自上而下的实现复杂度愈来愈高,但是所夹带的价值也越来越大,这也是为什么越来越多的企业、政府机构要把大数据科学驱动的大数据分析引入并应用到商务智能、智慧城市等广泛的领域中来。
(2)大数据科学家
大数据科学家是在新的大数据生态体系建立的过程中催生出来的复合型人才。大数据处理与分析项目中通常需要多种角色,从SME(Subject Matter Expert,行业问题专家)到数据分析专家、建模工程师到大数据系统专家等,不一而足。我们可以把以上所有的职能总结为三大类,如下所示:
数据科学家自身结合了多种之前被分离的技能于一身。
· 数理统计知识(Math & Statistics):能够以数学、统计学模型、算法(如机器学习、深度学习等)等来抽象业务需求与挑战。
·编程与架构设计(以及Hacking Skills,黑客)的能力:能够将数学模型转换为可运行在大数据处理平台上的代码,还能设计、实现和部署统计模型和数据挖掘方法等。
·行业经验(Domain Expertise):对垂直领域的深刻理解才能保证前两项沿着正确的方向发展。
大数据科学家正是位于上图的三圆交汇之处兼具以上三种技能于一身的复合型人才。
大数据科学是一个新兴的领域,而大数据科学家是拥有特殊技能的新型专业人才。大数据科学家负责为复杂的业务问题建模、发现业务洞察力并找到新的商业机遇。对于这种能够从海量数据中提取有用信息,再从信息中提炼出具有高度概括性与指导意义的知识、智慧甚至转变为可以自动化的智能(如AI)的新型人才,可以想见在相当长的一段时间内市场会对他(她)们趋之若鹜—如果非要为这段时间加个期限,也许是横跨整个21世纪。
·文/ 老孙(孙宇熙:云计算、大数据、高性能存储与计算系统架构专家 )
·END·