《统计学习方法》学习笔记(1)-统计学习方法概论

《统计学习方法》学习笔记(1)-统计学习方法概论
研一开学就看了这本书,大约过了一两遍,但是一直都没有详细的推导公式,知识大约看懂的样子,这次重新学习一遍,保证每个地方都自己推导一遍。
这篇会按照我的思路写的比较详细,是因为我觉得基础概念非常重要,值得多花一些时间。要不然对于以后比较复杂的知识理解总是浮于表面,我之前也都知道是那么个过程,可就是没有深刻的理解,啊,发现学习起来,我好严肃,还是用轻松一点的心态来学吧,其实这些看似逻辑很强的知识跟生活中的很多东西也都有关系~~~~

1.1 统计学习
什么是统计学习:统计学习是计算机通过数据 构建 概率统计模型,然后再利用模型对新的数据进行预测和分析的学科。也经常被我们称为机器学习。(它的主要目的是学习模型,对未知数据预测分析,并应用到实际的领域)
其实,看到这里我觉得这个所谓的模型就相当于人类大脑处理分析的机制,我们从小看了很多种类型的物品,例如猫,狗,房子。就相当于统计学习中输入的大量数据。这样我们的大脑就会分析同类数据的共同的特征,并记忆下来,这样当下次再看到类型的物品,我们一下子就能反应过来,哦!这个是一只狗。所以如果计算机具备类似的能力,我们会觉得计算机具有学习能力。

1.2 监督学习
统计学习可以分为监督学习,半监督学习,非监督学习以及强化学习。
监督学习在维基百科是这么定义的:是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
监督学习:生成模型与判别模型,分类问题, 标注问题,回归问题。
它主要的特点就是训练数据中处理包含输入向量,还包括了预期输出。而非监督学习过程的训练数据是不包括预期输出的,同理可得,半监督学习是包含部分预期输出
本书重点介绍监督学习:
1.2.1基本概念:
(1)输入空间、特征空间、输出空间
输入空间是指输入的所有可能取值的集合。
输出空间是指输出的所有可能取值的集合。
每个具体的输入一个实例通常是特征向量来表示,所有特征向量存在的空间成为特征空间。
输入空间和特征空间可以相同。模型实际是定义再特征空间上的。
输入变量和输出变量分别用X,Y表示。他们的取值(实例)用x,y表示。
(2)联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y). P(X,Y)是分布函数(所以,学习机器学习之前,得把概率统计的知识复习一下)。且训练数据和测试数据是依作P(X,Y)产生的。
(3)假设空间
监督学习的目的就是学习到一个从输入空间到输出空间的映射,这个映射就是我们常说的模型。输入空间到输出空间所有的映射的集合称为假设空间,我们从这个假设空间中选择符合我们要求的模型。
1.2.2统计学习的三要素(看了地图,我们想办法到目的地了,这里是非常核心的地方)
(1)模型
假设空间用F表示,假设空间可以定义为决策函数的集合:
这里写图片描述
其中,X和Y是定义在输入空间和输出空间的随机变量,参数向量这里写图片描述取值于n维欧氏空间,称为参数空间。
假设空间也可以定义为条件概率的集合:这里写图片描述
这时F是一个由参数向量决定的条件概率分布族。
(2)策略
有了模型的假设空间,那么怎么从中选择一个我们想要的模型,就要制定准则了。
损失函数和风险函数
当我们从假设空间中选择选取一个模型f作为决策函数,对于给定的输入X, f(X)会给出相应的输出Y,这个预测值f(X)与真实值可能一致也可能不一致,所以用一个损失函数来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数,记作L(f(X), Y).
常用的损失函数:
1)0-1 损失函数:这里写图片描述
2)平方损失函数:这里写图片描述
3)绝对损失函数:这里写图片描述
4)对数损失函数(或对数似然损失函数):这里写图片描述
损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合概率分布,所以损失函数的期望是:这里写图片描述
这是理论上模型f(X)关于联合概率分布P(X,Y)的平均意义下的损失,称为风险损失或期望损失。
我们学习的目标是选择期望风险最小的模型。由于联合分布P(X,Y)是未知的,所以期望风险不能直接计算。实际上如果联合分布提前知道,那么条件概率也不需要学习了。正式因为不知道联合概率分布所以才需要学习。所以就要用别的方式来近似学习期望风险了。
给定一个训练数据集:
这里写图片描述
模型f(x)关于训练数据集的平均损失称为经验风险或经验损失,公式计算如下:
这里写图片描述
期望风险是模型关于联合分布的期望损失,经验损失是模型关于训练样本的平均损失。根据大数定律,当样本容量N趋向于无穷时,经验风险须向与期望风险。
这边在我的理解中就是就经验风险来近似代替期望风险来进行模型的学习。但是在现实的应用中,训练数据集不够大,所以需要对经验风险进行矫正,经常使用的方法就是添加正则项等。
经验风险最小化和结构风险最小化
1)经验风险最小化的策略是根据经验风险最小化求模型:这里写图片描述
2)结构风险最小化等价于正则化,在经验风险上加上表示模型复杂度的正则化项:
这里写图片描述
其中J(f)为正则化项,表示模型的复杂度,复杂度越高,正则化项越大,反之,模型越简单,正则化项越小。lamda>=0是系数,用以权衡经验风险和模型复杂度。
算法
算法是指学习模型的具体计算方法。这时,统计学习问题归结为最优化问题,统计学习的算法称为求解最优化问题的算法。

模型评估与模型选择(学习到了模型,我们得想办法来评估一下看看好不好用~)
(1) 训练误差与测试误差
训练误差就是学习到的模型在训练数据集上平均损失。
测试误差就是学习到的模型在训练数据集上平均损失。
值得注意的是,训练误差的大小,对判断给定的问题是不是一个容易学习的问题是有意义的,但本质上是不重要的。测试误差反映了学习方法对于未知的测试数据集的预测能力,是学习中的重要概念。
(2)过拟合与泛化能力
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往比真模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象,模型选择旨在避免过拟合而提高模型的预测能力。
(3) 正则化与交叉验证
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。一般可以选择模型参数向量的范数。
如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集,验证集,测试集。训练集用来训练模型,验证集用于模型的选择,二测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择是有效的。
但是在实际应用中数据是不充足的,为了选择好的模型,可以采用交叉验证方法,它的基本思想就是重复利用数据。把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复训练、测试以及模型选择。
啊,关于交叉验证的具体集中方法书上写了。。我写不下去了。
泛化能力
学习方法的泛化能力是指由该方法学习到的模型对位置数据的预测能力,是学习方法本质上重要的性质。其实,泛化误差的定义如下:如果学习到的模型是这里写图片描述,那么用这个模型对未知数据预测的误差即为泛化误差:
这里写图片描述
泛化误差反映了学习方法的泛化能力,事实上,泛化误差就是所学习到模型的期望风险。
在实际应用中我们往往用学习到模型在测试集的误差来近似表示泛化误差。(我记不清在哪里看到的了。)

然后然后,监督学习分为 生成模型和判别模型。
分类问题、标注问题、回归问题等等。我就不具体写了~~~~~~~**重点内容**

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值