数据科学的学科地位
数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处,是多种理论相互融合后形成的新兴学科
1.数学与统计知识
“数学与统计知识”是数据科学的主要理论基础之一,但数据科学与(传统)数学和统计学是有区别的。 其主要区别如下:
- 数据学科中的“数据”不仅仅是“数值”,也不等同于“数值”
- 数据学科中的“计算”不仅仅是数学计算,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
- 数据科学的问题不是“单一学科”的问题,而是涉及到多个学科,强调跨学科视角
- 数据科学是“理论研究”和“领域实务知识”二者的结合
2.黑客精神与技能
“黑客精神与技能”是数据科学家的主要精神追求和技能要求——大胆创新、喜欢挑战、追求完美和不断改进
黑客(Hacker):喜欢发现和解决技术挑战、攻击计算机网络系统的精通计算机技能的人
骇客(Cracker):闯入计算机系统和网络试图破坏和偷窃个人信息的个体
3.领域实务知识
是对数据科学家的特殊要求--- 不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。
统计学
分类
(1)从行为目的和思维方式看
数据统计方法分为:
- 描述统计:采用图表和数学方法描述数据的统计特征。分为:集中趋势分析,离中趋势分析,相关分析
- 集中趋势分析:数值平均数、位置平均数等。
- 离中趋势分析:极差、分位差、平均差、方差、标准差、离散系数等。
- 相关分析:正相关、负相关、线性相关、线性无关等。
2. 推断统计:通过“样本”对“总体”进行推断分析。常用方法:参数估计、假设检验
(2)从方法论角度看
基于统计的数据方法分为:
- 基本分析法:用于对“低层数据(0次或1次数据)”进行统计分析。常用方法:回归分析、分类分析、时间序列分析、线性分析、方差分析、聚类分析等
- 元分析法:基于“高层数据(2次或3次数据)”,尤其是对基本分析法得出的结果进一步分析的方法(在已有统计分析的结果上进一步进行统计分析)。常用方法:加权平均法、优化方法
统计学与机器学习的区别
统计学更关注“可解释性”,侧重模型
机器学习更关注“预测能力”,侧重“算法”
主要区别:统计学需要事先对处理对象的概率分布做出假定,而机器学习不需要;统计学通过各种统计指标来评价统计模型的拟合优度,而机器学习通过交叉验证或划分训练集和测试集的方法评价算法的准确度
数据科学视角下的统计学
1.不是随机样本,而是全体数据
2.不是精确性,而是混杂性
3.不是因果关系,而是相关关系
大数据思维在传统思维基础上的转换:
机器学习
机器学习为数据科学中充分发挥计算机的自动数据处理能力,拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。
基本思路:以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)。
常用机器学习算法
三要素:T P E
任务(T)
性能指标(P)
经验来源(E)
例子:
TD-Gammon学习系统的三个关键要素
1. 任务(T):下西洋双陆棋;
2. 性能指标(P):比赛中击败对手的百分比;
3.经验来源(E):与自己进行对弈。
机器人驾驶学习的三个关键要素
1.任务(T):通过视觉传感器在四车道高速公路上驾驶;
2.性能指标(P):平均无差错行驶里程;
3.经验来源(E):注视人类驾驶时录制的一系列图像和价值指令。
常用的机器学习类型
根据输出结果
概念学习
定义:就是把具有共同属性的事物集合在一起并冠以一个名称,把不具有此类属性的事物排除出去。
条件:提供概念范例;利用概念间的联系构图;消除错误概念;在实践中运用概念。
学习过程:获得概念有两种形式,即概念的形成和概念的同化→在认知活动中发挥作用,并认知活动产生影响。
决策树学习
决策树学习的本质是一种遁近离散值目标函数的过程。决策树代表的是一种分类过程
- 根节点:代表分类的开始。
- 叶节点:代表一个实例的结束。
- 中间节点:代表相应实例的某一个属性。
- 节点之间的边:代表某一个属性的属性值。
- 从根节点到叶节点的每条路径:代表一个具体的实例,同一个路径上的所有属性之间是“逻辑与”关系。从根节点开始,按照给定实例的属性值判断对应的树枝,并依次下移,直到点为止。
- 大多数的决策树学习算法都是基于ID3算法设计出来的.
分析学习
定义:分析学习是相对于归纳学习的一种提法,其特点是使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些解释能使机器学习系统比单独依靠数据进行泛化有更高的精度。
实现:分析学习使用先验知识来减小待搜索假设空间的复杂度,减小了样本复杂度并提高了机器学习系统的泛化精度。
根据学习方式
人工神经网络学习
人工神经网络( Artificial Neural Network , ANN )学习借鉴了生物学的一小部分简单理论,其目的是从训练样本中学习到目标函数。根据生物学的观点,学习系统是由相互连接的神经( Neuron )组成的复杂网络。与生物学习系统类似,人工神经网络也是由一系列比较简单的人工神经元相互连接的方式形成的网状结构。人工神经元是人工神经网络的最基本的组成部分。
贝叶斯学习
利用参数的先验分布,由样本信息求来的后验分布,直接求出总体分布。
朴素贝叶斯分类器是最基本的,也是最有用的贝叶斯学习方法之一。通常,可以达到人工神经网络和决策树学习的水平。
遗传算法
定义:主要研究的问题是“从候选假设空间中搜索出最佳假设”。此处,“最佳假设”指“适应度( Fitness )”指标为最优的假设。其中。“适应度”是为当前问题预先定义的一个评价度量值。
实现方式:均具备一个共同结构——遗传算法的总体。遗传算法借鉴的生物进化的三个基本原则——适者生存、两性繁衍及突变。分别对应遗传算法的三个基本算子:选择、交叉和突变。
基于实例学习
实现将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与以前存储的实例之间的关系,并据此把一个目标函数值赋给新增实例。常用的方法:K近邻方法,局部加权回归算法,基于案例的推理。
增强学习
增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。
研究的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。
目的:从有延迟的回报中学习”控制策略“,以便后续的动作产生最大的累计回报。
也就是说增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。
具体说用模型来表达,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。
分类:监督学习,无监督学习,半监督学习。
在数据科学中的应用
IBM Watson 是一款基于 IBM DeepQA 架构,并运行在基于 IBM POWER7处理器的服务器中的工作负载优化系统,在机器学习和认知计算领域具有重要地位。
(1)机器学习的应用:命中列表、问题分类、迁移学习、答案合并、最优答案选择、证据扩散、多项答案。
(2)机器学习与其他技术的集成应用:统计分析。信息检索。
自然语言处理。知识表示与推理。人机接口 等相关知识领域的融合,较好地反映了这些不同技术的集成化应用趋势。
数据科学视角下的机器学习
目前仍存在的挑战
- 过拟合:目标函数在训练集上的准确率高,在测试集的效率却很低。
- 维度灾难:在高纬度空间数据上效果底,甚至不可行。
- 特征工程:实际数据处理中,往往需要分析训练集的样本特征——分类标签特征。
- 算法的可扩展性:硬件,软件以及训练集上的可扩展性。
- 模型集成:将多个模型进行集成处理。
数据可视化
定义:指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。
为什么要可视化?
一方面是因为数字太抽象,图表更直观。另一方面,数据面向的受众大都不具备专业的数据知识,可视化的形式有助于降低读懂数据的门槛;简言之,数据可视化提高了数据沟通的效率。
重要地位
(1)视觉感知是人类大脑的最主要途径:视觉感知是人类大脑的最主要功能之一;眼睛是感知信息能力最强的人体器官之一。
(2)相对于统计分析,数据可视化的主要优势体现在:数据可视化处理可以洞察统计分析无法发现的结构和细节;数据可视化结果的解读对用户知识水平的要求较低。
(3)可视化可以帮助人类提高理解与处理数据的效率。
(4)在人类数据处理和科学技术的发展中扮演着重要的角色。
常用的数据可视化工具
- Tableau
- Matplotlib
- Seaborn