摘要:
数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。
数据科学研究的10个发展趋势:预测模型及相关分析的重视、模型集成及元分析的兴起、数据在先,模式在后或无模式的出现、数据一致性及现实主义的回归、多副本技术及靠近数据原则的广泛应用、多样化技术及一体化应用并存、简单计算及实用主义占据主导地位、数据产品开发及数据科学的嵌入式应用、专家余及公众数据科学的兴起、数据科学家与人才培养的探讨。
1.数据科学:大数据背后的科学
数据科学:揭示数据时代,尤其是大数据时代新的挑战、机会、思维和模式为研究目的,由大数据时代新出现的理论、方法、模型、技术、平台、工具、应用和最佳实践组成的一整套知识体系。
数据科学与数据学的区别——前者是解决数据问题的科学,而后者侧重于数据处理及其在教育领域中的应用。
新技术成长曲线:
数据科学的知识体系:
(1)基础理论
主要包括数据科学中的新理念、理论、方法、技术及工具以及数据科学的研究目的、理论基础、研究内容、基本流程、主要原则、典型应用、人才培养、项目管理等。
数据科学的“基础理论”在数据科学的研究边界之内,而其“理论基础”在数据科学的研究边界之外,是数据科学的理论依据和来源。
(2)数据加工
目的:提升数据质量、降低数据计算的复杂度、减少数据计算量以及提升数据处理的精准度
包含:数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等
(3)数据计算
云计算技术:Google三大云计算技术(GFS、BigTable和MapReduce)、Hadoop MapReduce、Spark和YARN
(4)数据管理
目的:对数据进行管理与维护,以便进行(再次进行)“数据分析”以及数据的再利用和长久存储
包括:传统关系型数据库,以及新兴数据管理技术 如NoSQL、NewSQL技术和关系云等。
(5)数据分析
工具:R语言和Python语言
(6)数据产品开发
特征:以数据为中心、多样性、层次性和增值性
专业数据科学及专业中的数据科学
“专业数据科学” 是将数据科学当作一门独立于传统科学的新兴学科来研究,强调的是其学科基础性
“专业中的数据科学” 是指依存于某一专业领域中的大数据研究,将数据科学当作传统学科的新研究方向和思维模式来研究。其特点是与所属专业的耦合度较高,难以直接移植到另一个专业领域。(例如大数据金融、大数据伦理)
联系:专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具。专业数据科学更具有共性和可移植性,并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。
2.数据科学的研究问题
数据科学的研究主题可以分为两类:核心问题和周边问题。
核心问题代表的是数据科学的基础理论——数据科学特有的理念、理论、方法、技术、工具、应用及代表性实践。
周边问题代表的是数据科学的底层理论(理论基础,如统计学、机器学习等)、上层应用(应用理论,如数据新闻、大数据金融、大数据社会、大数据生态系统等)以及相关研究(如云计算、物联网、移动计算等)。
1> 专业数据科学研究的热门话题:
(1)DIKW模型。
刻画人类对数据的认识程度的转变过程。数据 -> 信息 -> 知识 -> 智慧 (不可预知到可预知的增值过程)
(2)数据分析学。
大数据分析学:大数据分析算法和工具的开发。
面向特定领域的大数据分析:如面向物流与供应链管理、网络安全以及医疗健康的大数据分析学
(3)数据化。
数据化是将客观世界以及业务活动以数据的形式计量和记录,形成大数据,以便进行后续的开发利用。
研究重点:业务的数据化 -> 数据的业务化 (基于数据定义和优化业务)
(4)数据治理。
数据治理是指数据管理的管理。
研究重点:顶层设计、实现方法、参考框架以及如何保证数据管理的可持续性。
数据治理作为数据能力成熟度评估模型的关键过程域。重点是如何通过数据治理提升组织数据管理能力的问题。 DMM中定义的关键过程域 “数据治理” 包括3个关键过程:治理管理、业务术语表和元数据管理。
(5)数据质量。
关注重点:大数据中的质量问题会不会导致数据科学项目的根本性错误 以及大数据时代背景下的数据可用性的挑战及新研究问题
传统数据管理和数据科学对数据质量的关注点不同。传统数据管理主要从数据内容视角关注质量问题,强调的是数据是否为干净数据 / 脏数据;数据科学主要从数据形态视角关注质量问题,重视的是数据是否为整齐数据 / 混乱数据(所谓的整齐数据是指数据的形态可以直接支持算法和数据处理的要求)
整齐数据应遵循三个基本原则: 每个观察占且仅占一行、每个变量占且仅占一列以及每一类观察单元构成一个关系表。
2> 专业中的数据科学研究的热门话题:
数据新闻 、工业大数据、消费大数据、健康大数据、生物大数据、社会大数据、机构大数据、智慧类应用、敏捷类应用
3.数据科学研究的争议与挑战
从计算机科学视角看,新的数据处理需求已经超出了现有的存储与计算能力。
从统计学视角看,大数据挑战在于样本的规模接近总体时,如何直接在总体上进行统计分析。
从机器学习角度看,训练样本集接近测试样本集时,如何用简单模型及模型集成方法实现较高的智能水平。
从数据分析角度看,如何从海量数据中快速洞察有价值的数据,并通过试验设计和模拟仿真,实现数据到智慧的转变。
1> 思维模式——知识范式 到 数据范式
传统:数据 -> 知识 -> 问题
大数据:数据 -> 问题
思维模式变革的主要挑战在于如何完成以数据为中心的设计、数据驱动型决策和数据密集型应用。
2> 数据的认识——被动属性 到 主动属性
传统:对待数据(被动属性): 例:数据库先定义关系模式,再将数据按照关系模式进行强转后放入DB中,完成数据挖掘和分析任务。
大数据: 例:数据驱动型应用、数据业务化
3> 智能的认识——更好的算法还是更多的数据
数据范式 -> 数据可以直接解决问题
改进或演化算法 -> 智能水平提升 But 算法复杂度提升
最好的模型 = 更多数据 + 简单算法
4> 研发瓶颈——数据密集型还是计算密集型 (软件开发与算法设计)
传统: 计算密集型 瓶颈(计算)
分布式计算 (云计算): 数据密集型 瓶颈(数据)
数据密集型应用的主要挑战:副本数据技术、物化视图、计算的本地化、数据模型的多样化和数据一致性保障。
5> 数据准备——数据预处理还是数据加工
传统:数据预处理(关注数据的质量维度问题)
预处理 方式:将复杂数据转换为简单数据,对脏数据进行清洗处理后得到干净数据,从而防止“垃圾进垃圾出”现象的出现,主要涉及重复数据的过滤、错误数据的识别及处理。
存在问题:从小数据到大数据间存在质量涌现现象 —— 个别小数据的质量问题不影响整个大数据的可用性
大数据:数据加工(数据的创造性增值过程 人的增值作用)
表现形式:数据打磨 或 数据改写
强调方法:将科学家的3C精神融入数据处理工作之中,从而达到数据增值的目的。(科学家的3C精神 —— 原创性(Creative)设计、批判性 (Critical)思考和好奇性(Curious)提问)
体现特征:数据复杂性(数据的固有特征)
数据加工的研究挑战集中在:
- 数据打磨或数据改写理念的提出(人的作用 -> 数据增值)
- 数据打磨或数据改写技术的实现 (Python、R、大数据技术)
- 数据柔术 ( 数据 —— (艺术性) ——> 产品 )
- 整齐化处理 ( 数据 ——> 形态 大数据算法 And 大数据技术可直接处理)
注:数据加工不仅限于技术工作的范畴,还涉及到艺术层面的创造,如需要采用数据柔术 和 整齐化处理的方法进行数据加工处理。
6> 服务质量——精准度还是用户体验
传统:查全率和查准率(核心指标)
存在问题:当总体为未知、数据量迅速增长、数据种类不断变化和数据处理速度要求高时,查全率和查准率的追求成为不可能。
大数据:用户体验(最重要的指标之一:响应速度)
研究挑战:如何确保较快的响应速度、设计人机交互、实现服务虚拟化以及提供按需服务。
7> 数据分析——解释性分析还是预测性分析
传统:解释性分析(因果分析)
历史数据 —— (深度分析) ——>深刻理解自我 / 解释客观现象
数据分析指导思想:理论完美主义
大数据:预测性分析(相关分析 事物之间的相关关系) 更强时效性
数据分析指导思想:现实实用主义
数据科学家 => 预测性分析 领域专家 => 解释性分析 (数据科学的特点:预测性分析和解释性分析的分离 先预测 再分析)
大数据分析的挑战:数据的复杂性、噪声数据的分析、数据的依赖度。
8> 算法分析——复杂度还是可扩展性
传统算法评价:复杂度 时间复杂度 空间复杂度 (两个重要评价指标)
大数据下的算法评价:算法的可扩展性 (代表算法的可伸缩能力)
特点:上层需求和底层数据处于动态变化中 (支持按需服务和数据驱动型应用)
主要挑战:低维度算法在高维数据中的应用、维度灾难、数据规约以及数据密集型应用。
9> 研究范式——第三范式还是第四范式
四种范式:原始社会的 “实验科学范式”、以模型和归纳为特征的 “理论科学范式”、以模拟仿真为特征的 “计算科学范式” 和 “数据密集型科学发现范式”。
数据密集型科学发现范式 主要特点:科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。
第四范式产生变化:人们对世界的固有认知发生了根本性的变化——从二元认识(精神世界/物理世界)转向三元认识(精神世界/数据世界/物理世界)
注:数据世界:科学研究者往往直接面对的是数据世界,通过对数据世界的研究达到认识和改造物理世界的目的。与“调研数据”相比,“历史数据”更具有客观性和可信度。
4.数据科学研究的发展趋势
- “思维模式的多样化和研究范式的变迁” 是根本趋势。
- “专业中的数据科学” 是研究热点。
- “专业数据科学” 是研究难点。
- “数据生态系统的建设” 是终极问题。
思维模式多样化:数据范式的兴起以及其与传统的知识范式并存
研究范式的变迁:科学研究范式从“计算科学范式”转向“数据密集型科学发现范式”
各专业领域主要挑战:如何解决新兴数据与传统知识间的矛盾
1> 预测模型及预测分析
数据科学 (预测模型) -> 实用主义 -> 关注 ‘预测未来’ 非 ‘解释过去’
假设演绎研究范式 (提出研究假设——采用试验设计和演绎分析方法论证) -> 预测模型
预测模型 重视:模型的简单性
(原因:预测模型对计算时间要求高,甚至需要进行实时分析,简单模型计算效率高于复杂模型)
预测模型建立在相关关系。表面上:依赖相关关系的分析 本质上:数据驱动型的“数据范式”
2> 模型集成及元分析
传统数据分析:一个数据模型(单一性和复杂性)
大数据:模型集成 (多样性和简单性)
大数据分析处理:采用多个较为简单的数据模型,将数据分析任务分解成分散在多个层次、多个活动的小任务,并通过简单模型及其集成方法达到最终数据处理目的。
元分析:数据分析工作往往在众多小模型的分析结果的基础上进行二次分析(元分析)
注:传统统计学重视的基于零次或一次数据的基本分析,包括描述性统计、参数估计和假设检验。
3> 数据在先,模式在后或无模式的出现
传统:模式在先、数据在后
定义模式 -> 按照模式要求存储和管理数据
需要调整模式 -> 需要重定义数据结构 And 需要修改上层应用程序
大数据:数据在先,模式在后 或 无模式
存在问题:限制数据管理系统的处理能力 及 加大应用系统的开发难度
4> 数据一致性及现实主义的回归
传统数据管理:强一致性(任何时候从任何地方读出的任何数据均为正确数据)
强一致性 优点:可以保证数据质量,降低后续计算的成本
保证强一致性 方法或机制:事务、两端封锁协议和两端提交协议(关系数据库)
大数据: 弱一致性、最终一致性(更新一致性、读写一致性和会话一致性)
大数据时代 数据管理要求:高扩展性、高性能、高容错性、高伸缩性和高经济性
完美主义 回归到 现实主义:人们对分布式系统的设计目的发生了改变,不再追求强一致性、可用性 和 分区容错性三个指标的同时最优,反而意识到了三者中的任何两个特征的保证(或争取)可能导致另一个特征的损失(或放弃)。
5> 多副本技术及靠近数据原则的应用
传统 -> 数据冗余的负面影响 -> 冗余数据导致的数据一致性保障成本较高
数据科学 -> 数据冗余的积极作用 -> 冗余数据在负载均衡、灾难恢复和完整性检验中的积极作用
多副本技术和物化视图 -> 丰富冗余数据的存在形式,缩短用户请求的响应时间,确保了良好用户体验
计算和应用系统的部署:数据靠近计算 原则(传统) -> 计算靠近数据 原则(新)
注:多副本技术和靠近数据原则均表明传统的“以计算为中心”的产品部署模式正向“以数据为中心”的产品部署模式的转变。
5.总结
1.统计学和机器学习是数据科学的理论基础,而并非其核心内容。
2.数据科学具有区别与其他学科的独特的研究使命、研究视角、思维模式、做事原则和知识体系。
3.数据科学的一个重要贡献或价值就在于改变了人们对数据的研究方向,即从被动属性转向主动属性。
4.传统数据时代一直试图将复杂数据转换成简单数据,如模式定义,结构化处理和预处理。 大数据时代更加关注的是数据的主动性,开始接受数据的复杂性,如数据驱动型应用、以数据为中心的设计、让数据说话、数据洞见等。
5.数据科学的三要素——理论、实践和精神。 精神——原创性设计、批判性思考和好奇性提问的素质。
6.相关分析只能用于识别事物之间的关联关系,而无法指导如何优化和干预这种相关关系。当相关关系发生变化或需要人为干预相关关系时,必须进一步研究其因果关系。在数据科学项目中,数据科学家的关注重点是发现各种可能的关联关系,而关联关系的产生机制和优化方法需要由领域专家完成。
7.数据产品不限于数据形态的产品,任何用数据来帮助目标用户实现其某一目的的产品都可视为数据产品。
8.数据工程师负责的是“数据本身的管理”,而数据科学家的主要职责是“基于数据的管理”,包括基于数据的分析、决策、流程定义与再造、产品设计和服务提供等。