统计学习方法概括


一、基本概念

统计学习由监督学习、非监督学习、半监督学习、和强化学习组成。

       监督学习:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且这种假设要学习的模型属于某个函数的集合,成为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,是它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最有模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型的选择准则以及模型的学习算法,称其为统计学习方法的三要素,简称为模型、策略和算法。

二、统计学习步骤

       统计学习方法的步骤如下:

(1)     得到一个有限的训练数据集;

(2)     确定包含所有可能的模型的假设空间,即学习模型的集合;

(3)     确定模型选择的准则,即学习的策略;

(4)     实现求解最优模型的算法,即学习的算法;

(5)     通过学习方法选择最优模型;

(6)     利用学习的最优模型对新数据进行预测或分析;

三、统计学习要素

3.1模型:

统计学习首先要考虑的问题就是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率吩咐和决策函数。模型的假设空间包括所有可能的条件概率或决策函数。

       由条件概率表示的模型为概率模型,由决策函数表示的模型为非概率模型。

3.2策略:

       有了模型的假设空间,接着就要考虑按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选择最优模型。

       可以用损失函数和风险函数来评判模型的好坏。

       损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

       损失函数:

       统计学习常用的损失函数有以下四种:

       (1)0-1损失函数


       (2)平方损失函数


       (3)绝对损失函数


       (4)对数损失函数


       风险函数:

       损失函数越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是


这是理论上的模型f(x)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或者期望损失。

学习的目标就是要选择期望风险最小的模型。由于联合分布P(X,Y)是未知的,不能直接计算。

给定一个训练数据集


模型f(x)关于训练数据集的平均损失称为经验风险或者经验损失,记作:


期望风险是模型关于联合分布的其往往损失,经验风险是模型关于训练样本的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险.但是由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险称称并不理想,需要对经验风险进行矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

 

       结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是


其中为模型的复杂度,是定义在假设空间F上的泛函。模型f越复杂,复杂度就越大。也就是说,复杂度表示了对复杂模型的惩罚。是系数,用以权衡经验风险和模型复杂度。结构风险最小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

       结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以求最优模型,就是求解最优化问题:


       这样监督学习问题就变成经验风险或者结构风险函数的最优化问题。这时经验或者结构函数式最优化的目标函数。

3.3算法:

       算法是指学习模型的具体计算方法。统计学习给予训练数据集,根据学习策略,从假设空间选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

       这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

四、监督学习

       监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这一模型的一般形式为决策函数:


或者条件概率分布:


       监督学习方法又可以分为生成方法和判别方法。所学的模型分别称为生成模型和判别模型。

       生成方法由数据学习联合分布概率,然后求出条件概率分布作为预测的模型,即生成模型:


这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型。

       判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型。典型的判别模型包括:K近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

       在监督学习中,生成方法和判别方法各有优缺点,适合于不同条件下的学习问题。

       生成方法的特点:生成方法可以还原出联合概率分布,而判别方法则不能。生成方法的收敛数度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

       判别方法的他点:判别方法直接学习的是条件概率或者决策函数,直接面对预测,往往学习的准确率更高;由于直接学习,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值