统计学习方法概论

在这里插入图片描述

1、统计学习(statistical learning)也称为统计机器学习,是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析预测的一门学科,主要特点有:

  1. 统计学习以计算机及网络为平台,建立在计算机及网络上;
  2. 统计学习以数据为研究对象,是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测分析;
  4. 统计学习以方法为中心,构建模型并应用模型进行分析预测;
  5. 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论;

2、统计学习的对象是数据,从数据出发,提取数据的特征,抽象出数据模型,发现数据中的知识,又回到对数据的分析预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频以及它们的组合。统计学习关于数据的基本假设是同类数据(指具有某种共同性质的数据)具有一定的统计规律性,这是统计学习的前提。

3、统计学习的目的:用于对数据进行预测分析,特别是对未知新数据进行预测分析,对数据的预测可以使计算机更加智能化,对数据的分析可以让人们获取新的知识,给人们带来新的发现;对数据的预测分析是通过构建概率统计模型实现的,总目标是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测分析并尽可能地提高学习效率。

4、统计学习的方法:由监督学习、非监督学习、半监督学习和强化学习等组成,基于数据构建统计模型从而对数据进行预测分析,实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测分析。

5、统计学习的研究:一般包括统计学习方法(旨在开发新的学习方法)、统计学习理论(探求统计学习方法的有效性与效率及统计学习的基本理论问题)及统计学习应用(主要考虑将统计学习方法应用到实际问题中去,解决实际问题)三个方面。

6、统计学习的重要性:已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中,并且成为这些领域的核心技术,其重要性主要体现在以下几个方面:
(1)统计学习是处理海量数据的有效方法,现实中的数据不仅规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具;
(2)统计学习是计算机智能化的有效手段,智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标,利用统计学习模仿人类智能的方法是实现该目标的最有效手段;
(3)统计学习是计算机科学发展的一个重要组成部分,主要属于计算机科学三维(系统、计算、信息)中的信息一维。

7、监督学习:任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间和输出空间,两个空间可以是有限元素的集合,也可以是整个欧氏空间(欧几里得空间就是在对现实空间的规则抽象和推广(从n<=3推广到有限n维空间)),通常输出空间远小于输入空间。每个具体的输入是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间,特征空间每一维对应于一个特征。

8、监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据通常由输入与输出对组成,测试数据也由相应的输入与输出对组成,这些输入与输出对又称为样本或样本点。训练集通常表示为
在这里插入图片描述

9、根据输入变量、输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量和输出变量均为变量序列的预测问题称为标注问题

10、联合概率分布:监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数,但是对学习系统来说联合概率分布的具体定义是未知的,训练数据与测试数据被看作是依联合概率分布P(X,Y)独立分布产生的。

11、假设空间:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,模型属于由输入空间到输出空间的映射的集合(假设空间即学习范围)。监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(x)表示,对具体输入进行相应输出预测时,写作P(y|x)或y=f(x)。

12、问题的形式化:在监督学习的过程中,需要进行数据集的训练,而训练数据集往往由人工给出,所以称为监督学习,监督学习分为学习和预测两个过程,由学习系统和预测系统分别来完成。
在这里插入图片描述
在学习过程中,学习系统利用给定训练数据集即数据集中的样本(xi,yi)所带信息,通过学习(或训练)得到一个模型,表示为条件概率分布P(X|Y)或决策函数Y=f(X),两者都描述了输入与输出随机变量之间的映射关系。

13、统计学习三要素

  • 模型——在监督学习的过程中,模型是所要学习的条件概率分布或决策函数,模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。由决策函数表示的模型为非概率模型。
    在这里插入图片描述
    在这里插入图片描述

其中,X和Y分别是定义在输入空间和输出空间上的变量,参数向量θ取值于n维欧氏空间R^n,该空间称为参数空间。

  • 策略——统计学习的目标在于从假设空间中选取最优模型,按照什么样的准则学习或选择最优模型是目前需要考虑的。
    (1)损失函数和风险函数:用于度量模型一次预测的好坏,该函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。风险函数用于度量平均意义下模型预测的好坏。
    1.0-1损失函数(0-1 loss function)
    在这里插入图片描述
    2.平方损失函数(quadratic loss function)
    在这里插入图片描述
    3.绝对损失函数(absolute loss function)
    在这里插入图片描述
    4.对数损失函数(logarithmic loss function)
    在这里插入图片描述
    损失函数值越小表示模型性能越好,风险函数(期望损失)是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,公式如下:
    在这里插入图片描述
    而经验风险(经验损失)是模型f(X)关于训练数据集的平均损失,公式如下:
    在这里插入图片描述
    当样本容量N趋向于无穷时,经验风险R emp(f)趋于R exp(f),所以可以采用经验风险估计期望风险。
    (2)经验风险最小化(empirical risk minimization,ERM)策略认为经验风险最小的模型是最优的模型,根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题。当样本容量足够大时,经验风险最小化能够保证很好的学习效果;但是当样本容量很小时,经验风险最小化学习的效果未必很好,会产生过拟合现象。
    极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
    在这里插入图片描述
    (3)结构风险最小化(structural risk minimization,SRM):策略认为结构风险最小的模型是最优的模型,为了防止过拟合而提出,SRM等价于正则化,结构风险会在经验风险上加上表示模型复杂度的正则化项或罚项。
    贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构化风险最小化就等价于最大后验概率估计。
    在这里插入图片描述
    其中J(f)为模型复杂度,是定义在假设空间F上的泛函,模型f越复杂,复杂度J(f)越大;反之模型f越简单,复杂度J(f)越小,复杂度表示了对复杂模型的惩罚,系数λ≥0,用以权衡经验风险和模型复杂度。
  • 算法——学习模型的具体计算方法,这时统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法,可以利用现有的最优化算法,有时也需要开发独自的最优化算法。

14、假设学习到的模型是Y=f(X),训练误差是该模型关于训练数据集的平均损失,对判断给定问题是不是一个容易学习的问题是有意义的:
在这里插入图片描述
测试误差是该模型关于测试数据集的平均损失,反映了学习方法对未知的测试数据集的预测能力:
在这里插入图片描述
其中N是训练样本容量,N’是测试样本容量。
另外,通常将学习方法对未知数据的预测能力称为泛化能力。

15、过拟合:学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。随着多项式次数(模型复杂度)的增加,训练误差会减小,直至趋向于0,但是测试误差却不是这样,它会随着多项式次数的增加先减小后增大,所以当选择的模型复杂度过大时,过拟合现象就会发生。

16、常用的模型选择方法
正则化:结构风险最小化策略的实现,在经验风险上加一个正则化项(一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大)或罚项,正则化的作用是选择经验风险与模型复杂度同时较小的模型。
在这里插入图片描述
其中,第1项是经验风险,第2项是正则化项,λ≥0为调整两者之间关系的系数。
正则化符合奥卡姆剃刀原理,该原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。从贝叶斯估计的角度看,正则化对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
交叉验证:如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集分为三部分,分别是训练集(training set)、验证集(validation set)和测试集(test set),训练集用来训练模型,验证集用于模型的选择,测试集用于对最终学习方法的评估。交叉验证的基本思想是重复地使用数据,把给定数据进行切分,将切分的数据集组合成训练集与测试集,在此基础上反复进行训练、测试及模型选择。

  • 简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,一部分作为测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型,最后在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
  • S折交叉验证:应用最多的是该方法,首先随机地将已给数据切分为S个互不相交的大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型,将这一过程对可能的S种选择重复进行,最后选出S次评测中平均测试误差最小的模型。
  • 留一交叉验证:S折交叉验证的特殊情形是S=N,往往在数据缺乏的情况下使用,N表示给定数据集的容量。

17、学习方法的泛化能力(generalization ability)指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上的重要性质,如果学习到的模型是f,那么该模型对未知数据预测的误差即为泛化误差(generalization error),反映了学习方法的泛化能力。
在这里插入图片描述
18、泛化误差上界:学习方法的泛化能力分析往往通过研究泛化误差的概率上界进行,一般通过比较两种学习方法泛化误差上界的大小来比较它们的优劣,通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型越难学,泛化误差上界越大。

19、生成模型与判别模型:监督学习的任务就是学习一个模型,应用该模型对给定的输入预测相应的输出,这个模型的一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。监督学习方法可分为生成方法和判别方法,所学习到的模型称为生成模型和判别模型。

  • 生成方法——由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型,该模型表示了给定输入X产生输出Y的生成关系,典型的生成模型有朴素贝叶斯法和隐马尔可夫模型。在这里插入图片描述
    特点:生成方法可以还原出概率联合分布P(X,Y),判别方法不能;生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,不能用判别方法。
  • 判别方法——由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型,判别模型关心的是对给定输入X应该预测什么样的输出Y,典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
    特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习准确率更高;由于直接进行学习,可以对数据进行不同程度上的抽象、定义特征并使用特征,从而简化学习问题。

20、分类问题:分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题,这时输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,分类器对新的输入进行输出的预测,称为分类,可能的输出称为类。
分类问题包括学习和分类两个过程,在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类的过程中,利用学习的分类器对新的输入实例进行分类。评价分类器性能的指标一般是分类准确率(对于给定测试集,分类器正确分类的样本数与总样本数之比),对于二类分类问题常用的评价指标是精确率与召回率,通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:

  • TP——将正类预测为正类数;
  • FN——将正类预测为负类数;
  • FP——将负类预测为正类数;
  • TN——将负类预测为负类数;

精确率定义为
在这里插入图片描述
召回率定义为
在这里插入图片描述
精确率和召回率的调和均值定义为
在这里插入图片描述
应用】银行业务中,可以构建一个客户分类模型,对客户按照贷款风险的大小进行分类;网络安全领域可以利用日志数据的分类对非法入侵进行检测;图像处理中,分类可以用来检测图像中是否有人脸的出现;手写识别中,分类可以用于识别手写的数字;互联网搜索中,网页的分类可以帮助网页进行抓取、索引、排序。

21、标注也是一个监督学习问题,可认为标注问题是分类问题的一个推广,是更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列,目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
标注问题分为学习和标注两个过程,首先给定一个训练数据集T={(x1,y1),(x2,y2),…(xN,yN)},这里xi是输入观测序列,yi是相应输出标记序列,n是序列长度。学习系统基于训练数据集构建一个模型,表示为条件概率分布
在这里插入图片描述
每一个X(i)取值为所有可能的观测,每一个Y(i)取值为所有可能的标记,一般n<<N;标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。评价标注模型的指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
应用】标注问题在信息抽取、自然语言处理等领域被广泛应用。例如,自然语言处理中的词性标注是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。

22、回归是监督学习的另一个重要问题,通常用于预测输入变量和输出变量之间的关系,表示从输入变量到输出变量之间映射的函数,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化,回归问题的学习等价于函数拟合:选择一条函数曲线使其能够很好地拟合已知数据并且很好地预测未知数据。
回归问题分为学习和预测两个过程,首先给定一个训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)},xi∈R^n是输入,y∈R是对应输出,i=1,2,…,N。学习系统基于训练数据构建一个模型,即函数Y=f(X),对新的输入,预测系统要根据学习的模型Y=f(X)确定相应的输出。
回归问题按照输入变量的个数分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数,该情况下回归问题可以用著名的最小二乘法求解。
应用】回归可以用于商务领域,作为市场趋势预测、产品质量管理、客户满意度调查、投资风险分析的工具。

拓展知识

  • 没有免费的午餐定理(No Free Lunch Theorem/NFL定理 ) ——教条主义的危害,NFL定理最重要的寓意,是让我们清楚的认识到,脱离具体问题,空泛的谈‘什么学习算法更好’毫无意义,在某个领域、特定假设下表现卓越的算法不一定在另一个领域也能是“最强者”;
  • 奥卡姆剃刀定理(Occam’s Razor - Ockham定理)—— 少即是多,在统计学和数学领域,如果与其他假设相比其对于观察的描述度一致,我们偏好优先选择最简单的那个假设,简单的线性回归和复杂的深度学习在某个问题上的表现相似(如相同的误分率),那么我们应该选择较为简单的线性回归;
  • 集成学习(Ensemble Learning)—— 三个臭皮匠的智慧,和其他机器学习模型不同,集成学习将多个较弱的机器学习(臭皮匠)模型合并起来来一起决策(诸葛亮),从某种意义上说,神经网络也是一种集成学习,每个单独的神经元都可以看做某种意义上的学习器;
  • 集成学习细化 —— 民主、自由与专权,
    思路1:每个子学习器都是弱分类器,在融合后达成为一个强力的主体。代表算法:随机森林
    每个子学习器都是强分类器,融合过程中可能:
    思路2(强中取强):选择最强的那一个。代表算法:dynamic classifier selection
    思路3 (公平选择):一视同仁的对待每个子学习器,融合出一个更强的主体。代表算法:stacking
  • 频率学派(Frequentism)和贝叶斯学派(Bayesian) ——可知论与不可知论。频率学派相信参数是客观存在的,虽然未知,但不会改变,频率学派的方法一直都是试图估计“哪个值最接近真实值”,而贝叶斯学派相信参数不是固定的,我们需要发生过的事情来推测参数;

来源:统计学习方法、知乎

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值