关于《统计学习方法》的学习,第一章

1.1统计学习

统计学习的对象:数据。

统计学习的目的:对数据进行预测与分析

统计学习的方法:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)。其中监督学习的统计学习方法包括模型的假设空间、模型选择的标准就以及模型学习的算法,称为统计学习方法的三要素,简称为模型(model)、策略(strategy)、和算法(algorithm)。

实现统计学习方法的步骤:(1)得到一个有限的训练数据集合;(2)确定包含所有可能的模型的假设空间,即学习模型的集合;(3)确定模型选择的准则,即学习的策略;(4)实现求解最优模型的算法,即学习的算法;(5)通过学习方法选择最优模型;(6)利用学习的最优模型对新数据进行预测或分析。

1.2监督学习

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction)。由于在过程中需要训练数据集,而训练数据集往往是人工给的,所以称为监督学习。

监督学习:输入空间(input space)、输出空间(output space)、特征向量(feature vector)、特征空间(feature space)、训练数据(training data)、测试数据(test data)、样本(sample)、假设空间(hypothesis space)。

种类:(1)输入变了与输出变量均为连续变量的预测问题称为回归问题;(2)输出变量为有限个离散变量的预测问题称为分类问题;(3)输入变量与输出变量均为变量序列的预测问题称为标注问题。

监督学习模型:概率模型,由条件概率分布P(Y|X)表示;非概率模型由决策函数(decision funciton)Y=f(X)表示。

1.3统计学习三要素

方法 = 模型 + 策略 + 算法

模型:所要学习的条件概率分布或决策函数。

策略:按照一定准则学习或选择最优的模型。

损失函数:度量模型一次预测的好坏;风险函数(risk function)[期望损失(expected loss)]:度量平均意义下模型预测的好坏。

常用的损失函数:0-1损失函数;平方损失函数;绝对损失函数;对数损失函数(对数似然损失函数)

根据大数定律,当样本容量趋于无穷时,经验风险(empirical risk)[经验损失(empirical loss)]趋于期望损失。利用经验风险最小化和结构风险最小化。

1.4模型评估与模型选择

当假设空间含有不同复杂度的模型进行模型选择时,如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,称为过拟合(over-fitting)。这种选出来的模型,对已知数据预测的很好,但是对未知数据预测的很差。比如在多项式函数拟合中可以发现,随着多项式次数(模型复杂度)的增加,训练误差会减小,直至趋于0,但是测试误差却不如此,它会随着多项式次数的增加先减小而后增大。

1.5两种常用的模型选择方法:正则化与交叉验证。

正则化:结构风险最小化策略的实现,是在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如模型参数向量的范数。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证:(1)简单交叉验证(2)S折交叉验证(3)留一交叉验证

1.6泛化能力

泛化能力:指由一学习方法学习到的模型对未知数据的预测能力。

泛化误差上界性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。(Hoeffding不等式)

1.7生成模型与判别模型

监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。这样的方法称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。

生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近临法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

1.8分类问题

监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。

评价分类器性能的指标一般是分类准确率(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。对于二分类问题通常采用精确率(precision)与召回率(recall)。

TP——将正类预测为正类数;

FN——将正类预测为负类数;

FP——将负类预测为正类数;

TN——将负类预测为负类数;

精确率定义为:P = TP/(TP+FP)

召回率定义为:R = TP/(TP+FN)

1F值为精确率和召回率的调和均值,F1 = 2TP/(2TP +FP + FN )

统计学习方法可以用于分类,包括k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。

1.9标注问题

标注(tagging)也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。

评价标注模型的指标与评价分类模型的指标一样,有标注准确率、精确率和召回率。其定义与分类模型相同。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。

1.10回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。

回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值