统计学习方法总结

0. 相关知识点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习的对象是数据(data),它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去

统计学习关于数据的基本假设是同类数据具有一定的统计规律性(例如概率分布),这是统计学习的前提。对数据的预测与分析是通过构建概率统计模型来实现的,统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能够对数据进行准确的预测与分析,同时也要尽可能地提高学习效率

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析,统计学习由下列几种学习方法组成

1. 监督学习(supervised learning)
2. 非监督学习(unsupervised learning)
3. 半监督学习(semi-supervised learning)
4. 强化学习(reinforcement learning)

0x1: 监督学习

在监督学习中,统计学习的方法可以概括如下:

1. 从给定的、有限的、用于学习的训练数据(training data)集合出发(训练集是人工给定的、已知label的数据集),假设数据是独立同分布产生的;
2. 并且假设要学习的模型属于某个函数的集合(称为假设空间 hypothesis space);
3. 应用某个评价标准(evaluation criterion)从假设空间中选取一个最优的模型,使他对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;
4. 最优模型的选取由算法实现

这样,统计学习的方法包括模型的假设空间、模型选择的准则、以及模型学习的算法,称为统计学习方法的三要素,简称模型(model)、策略(strategy)、算法(algorithm)

实现统计学习的方法的步骤如下

1. 得到一个有限的训练数据集合,包括样本特征的抽取;
2. 确定包含所有可能的模型的假设空间(即学习模型的集合),对应判别模型和生成模型的训练中,就是建立目标模型的数学公式描述
3. 确定模型选择的准则,即学习的策略
4. 实现求解最优模型的算法,即学习的算法,这块常常是学习策略的具体数学化表示,算法作为策略实现的手段
5. 通过学习方法选择最优模型,这部分又可以分为直接求出解析最优解、和逐步迭代求每轮的局部最优解从而逼近全局最优解(例如SGD)
6. 利用学习的最优模型对新数据进行预测或分析

监督学习(supervised learning)的任务是学习一个模型(包括生成模型和判别模型),使模型能够对任意给定的输入,对其相应的输出做出一个好的预测

1. 模型假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。监督学习的模型可以是概率模型或者非概率模型(决策函数)

概率模型:在学习的过程中,监督学习假设输入与输出的随机变量X和Y满足联合概率分布,这是监督学习的基本假设,即数据本身的规则必须确实存在,建模训练才能有效

决策函数(decision function):由 Y = f(X)表示

2. 生成模型与判别模型的联系与区别

生成的联合概率和决策函数又可以称为生成方法(generative approach)和判别方法(discriminative approach),训练得到的模型分别称为生成模型(generative model)和判别模型(discriminative model)

生成方法:由数据学习学习联合概率分布,然后求出条件概率分布作为预测的模型,即生成模型:。这样的方法之所以称为生成方法,是因为模型表示了给定输入 X 产生输出 Y 的生成关系,典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型

向生成方法输入X,生成模型的条件概率会给出整个概率分布上所有类别Y的概率,我们根据argmax取概率最大的那一类作为预测结果

 

判别方法:由数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型。判别模型关心的对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:K近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、条件随机场等

向判别方法输入X,判别方法会得出一个Y,然后拿这个Y与一个阈值比较,根据比较的大小结果得到属于哪个类

 生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类

直接学习条件概率分布 P(Y | X)或决策函数 Y = f(X)的方法为判别方法,对应的模型是判别模型。感知机、k近邻、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法、条件随机场是判别方法;

首先学习联合概率分布 P(X,Y),从而求得条件概率分布 P(Y | X)的方法是生成方法,对应的模型是生成模型。朴素贝叶斯法、隐马尔科夫模型是生成方法。

下图给出了部分模型之间的关系

在监督学习中,生成方法和判别方法各有优缺点,适合于不同条件下的学习问题

1. 生成方法的特点:
    1) 生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能
    2) 生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型
    3) 当存在隐变量时,生成方法仍可以学习,此时判别方法则不能用
    4) 生成模型的模型数学定义更困难,例如常用高斯模型需要假设样本数据特征满足高斯分布,但是我们知道实际问题中,样本的特征分布规律是十分复杂有时候难以用一个直观的数学表达式进行描述
    5) 生成方法学习联合概率密度分布P(X,Y),所以就可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪。

2. 判别方法的特点:
    1) 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对越策,往往学习的准确率更高
    2) 由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象(例如DNN多层抽象、SVM升维扭曲)、定义特征并使用特征,因此可以简化学习问题
    3) 判别模型由于不存在模型数序定义的问题,因此适合于复杂问题的场景,当样本中的规律分布不是十分明显满足某个已知概率分布的时候,可以尝试用判别模型训练分类器
    4) 判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异

从生成模型可以推导出判别模型,但是从判别模型无法反向推导。换句话,训练样本满足生成模型的概率分布是一个强假设,这个强假设可以推导出一个弱假设,例如一个训练集满足高斯判别模型(生成模型),则这个训练集一定能用逻辑斯蒂回归判别模型进行分类,反之则不行

例如也是两类w1和w2,那么我们通过生成模型求得了P(w1|X)和P(w2|X),那么实际上判别函数就可以表示为Y= P(w1|X)/P(w2|X),如果Y大于1或者某个阈值,那么X就属于类w1,如果小于阈值就属于类w2

本质上,分类器的设计就是在给定训练数据的基础上估计其概率模型P(Y|X)。如果可以估计出来,那么就可以分类了。但是一般来说,概率模型是比较难估计的,实际问题中样本背后的概率分布数学模型(数学建模)往往是十分复杂的,我们很难或者需要花费很大精力来进行建模,所以就有了不依赖概率模型直接设计分类器呢,分类器就是一个决策函数(或决策面),它能够从要解决的问题和训练样本出发直接求出判别函数,就不用估计概率模型了

例如支持向量机,我已经知道它的决策函数(分类面)是线性的了,也就是可以表示成Y=f(X)=WX+b的形式,那么我们通过训练样本来学习得到W和b的值就可以得到Y=f(X)了

还有一种更直接的分类方法,它不用事先设计分类器,而是只确定分类原则,根据已知样本(训练样本)直接对未知样本进行分类。包括近邻法,它不会在进行具体的预测之前求出概率模型P(Y|X)或者决策函数Y=f(X),而是在真正预测的时候,将X与训练数据的各类的Xi比较,和哪些比较相似,就判断它X也属于Xi对应的类。

举一个由高斯生成模型推导逻辑回归判别模型的例子

这里我们来讨论一个简单的例子,高斯生成模型,也即每个类别的数据分布都可以由高斯模型进行建模

类别概率为伯努利分布(即二类概率分布),在这个问题中,所涉及到的未知参数包括:ϕ,Σ,μ0,μ1,参数的求解可以通过最大化联合概率分布求得,即

最终求得的各个参数计算公式为:

我们以图示来说明,其中,圆圈和叉号分别表示两类数据,分别使用高斯模型对两类数据分布进行建模,由于两个高斯模型的协方差参数是一致的,所以这两个高斯分布的形状是一样的,只是中心位置不一致

图示中的直线表示的是高斯模型生成的决策面,表示p(y=1|x)=p(y=0|x)=0.5,表示属于两个类别的概率大小是一样的,否则的话,根据数据属于两个类别的概率大小(阈值)决定数据所属于的类别,这就是生成模型的预测方式

接下来,我们继续推导,值得注意的是,高斯生成模型中,p(y=1|x;ϕ,μ0,μ1,Σ)是可以表示为输入变量 x 的函数的,即:


而这个形式恰好是逻辑回归的基本模型!这说明,我们在使用高斯模型对每一类别的特征数据进行建模时,其生成式p(y|x)是符合逻辑回归模型的,但是如果满足有p(y|x)符合逻辑回归模型,并不能一定得到数据特征分布是高斯分布这个结论,所以反向推导是不成立的!

实际上,当类别数

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值