统计学习方法——第一章笔记(更新中)

4.15

在统计学习方法中包括模型的假设空间、模型选择的准则,以及模型学习的算法。统称为机器学习方法的三要素:模型,策略,算法。

根据不同的X,Y变量可以分为不同的问题类型:输入与输出变量均为连续变量的预测问题称为回归问题,输入与输出变量为有限个离散变量的预测问题称为分类问题,输入与输出均为变量序列的预测问题称为标注问题

在监督学习和无监督学习之间还有一种半监督学习,其是利用标注数据和未标注数据学习预测模型的机器学习问题,通常有少量标注数据和大量未标注诗句,其存在主要是因为标注数据的构建需要耗费大量的人工,成本较高,所以半监督学习可以利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

而主动学习就是机器主动给出实例让教师进行标注,然后对标注的数据进行学习,主动学习的目标是找出对学习最有帮助的实例让教师标注,比如说苹果手机目前用的人脸识别,会主动让用户对识别的人物进行一些标注,标注的越多识别的情况越准。

4.16

统计学习按照技巧分类可以分为贝叶斯学习和核方法

在核方法中使用核函数表示和学习非线性模型,可以用于监督学习和无监督学习。核函数支持向量机、核PCA、核K均值都是使用核方法。

在本书中,损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

统计学习的目标是选择期望风险最小的模型。但是由于联合分布P(X,Y)是未知的所以期望函数不能直接计算。实际上,如果知道联合分布,就可以从联合分布求得条件概率分布,也就不需要再进行统计学习了。正是因为不知道联合概率分布,所以要进行学习。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以可以用经验风险来估计期望风险。

在实际训练中,训练样本较少,所以用经验风险估计期望风险的效果并不理想,要对经验风险进行一定的矫正,即经验风险最小化和结构风险最小化。

4.17

交叉验证是一种常用的模型选择方法,如果给定的样本数据充足,进行模型的选择可以分为训练集、验证集和测试机。但是在许多实际应用中,数据一般是不够充足的。为了选择好的模型,可以采用交叉验证的方式。

交叉验证的思想是重复的使用数据,把给定的数据进行切分,将切分的数据组合为训练集和测试机,在此基础上反复进行训练、测试以及模型的选定。

1、简单交叉验证:将数据随机分为两部分(7:3),然后用训练机在各种条件下训练模型,从而得到不同的模型,然后在检验集上进行评价,选出误差最小的模型。

2、S折交叉验证:应用最多的方式。随机将数据切分为S个互不相交,大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型。这一过程可能对S种选择重复进行,最后选出S次评测中平均测试误差最小的模型。

3、留一交叉验证:S=N,N是指给定数据集的容量,往往是在数据缺乏的时候使用。30个样本30折。

4.18

正则化是模型选择的方法之一,是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

监督学习的应用主要在分类问题、标注问题和回归问题三个方面。

在分类问题中:当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时输入变量X可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,分为分类器。分类器对新的输入进行输出的预测。可能的输出称为类别。分类的类别为多个时,称为多分类问题。

分类问题包括学习和分类两个过程。评价指标一般有精确率和召回率,通过画出混淆矩阵对其进行计算。

在分类问题的应用中有客户分类模型,贷款风险分类模型,非法入侵分类模型,图像分类及文本分类等。

4.19

监督学习方法可以分为生成方法和判别方法,生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测模型。这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有朴素贝叶斯、隐马尔可夫模型。

判别方法是有数据直接学习决策函数f(x)或条件概率分布P(X|Y)作为预测的模型,判别方法关心的是对给定的输入X,应该预测什么样的输出Y,典型的判别模型包括:k邻近、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法和条件随机场等。

生成方法的特点:生成方法可以还原出联合概率分布P(X|Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真是模型;当存在隐变量时,仍可以使用生成方法学习,但是不能用判别方法。

判别方法的特点:判别方法直接学习的是条件概率P(X|Y)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接进行学习,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

4.21

回归是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正式表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好的预测未知数据。

回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型类型,分为线性模型和非线性模型。

回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由最小二乘法求解。

感知机是二分类的线性分类模型。输入为特征向量,输出为实例类别,取+1和-1二值。

导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。

感知机算法具有简单二易于实现的优点,分为原始形式和对偶形式。感知机预测使用学习得到的感知机模型对新输入实例进行分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值