《统计学习方法》学习笔记（一）：统计学习方法概论

最新推荐文章于 2024-09-13 17:02:14 发布

baifanyanda

最新推荐文章于 2024-09-13 17:02:14 发布

阅读量816

点赞数

分类专栏：机器学习文章标签：机器学习统计学

本文链接：https://blog.csdn.net/baifanyanda/article/details/49906279

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

　　最近开始研究机器学习，初步接触了几种常见的机器学习方法，在学习过程中，发现这些算法运用了大量的统计知识，为了对算法有更深刻的认识，在网上搜到了李航博士写的《统计学习方法》非常适合机器学习入门学习，于是在学校图书馆借来学习，接下来是我对本书每章节的个人笔记，边学习边总结，有一起学习的可以讨论。
　　第一章介绍的是统计方法的常用预备知识，是本书内容的基础。
　　

统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。

　　我们从统计学习的概念中提取关键点：1.基于数据；2.构建模型；3由模型预测数据。就是这三个步骤构成了我们的学习过程，在已有的数据中提取数据的特征，这些特征具有一定的规律性（就像小学时，判学习鸟时，有羽毛等等），接下来做的就是去发现这些规律，对于规律我们可以总结成文字，而对于计算机来说，就需要构建符合规律的模型（这就是需要用数学语言了），那么这个规律正确性是否屡试不爽呢？找些样本验证一下呗，顺带着可以调整一下，进过一番“磨合“，开始运行，找来未知数据进行预测了，达到目的。这就是整个学习的过程。
　　统计学习包括：监督学习、半监督学习、强化学习以及半监督学习（前面的文章对上述做过介绍，这里不再介绍），本书主要讨论监督学习。下面是监督学习的模型，其学习目的为在输入和输出中找到一个映射函数 $f(x):y_{i}\approx f(x_{i})$ ，即函数的输出与输入数据的label相差足够下，不断的尝试找到最好的模型，以便对训练集有足够好的预测，同时对未知的测试集的预测也尽可能好。
　　这里写图片描述

统计学习三要素

　　统计学习方法分为三部分: 方法=模型+策略+算法
　　1、模型
　　在监督学习过程中，模型就是所要学习的条件概率或决策函数。模型的假设空间含有所有可能的条件概率 $p(Y|X)$ 或者决策函数 $Y=f(X)$ 。
　　2、策略
　　得到模型的假设空间 $H$ 后，我们要从这个集合中选取最优的模型，那么遵循怎样的准则学习去得到最优的模型呢？这就引入了损失函数和风险函数两个概念去度量 $Y$ 与 $f(X)$ 的一致性。
0-1损失函数 $\left\{\begin{matrix} 1&Y\neq f(X))\\ 0& 　　　　　　　　　　Y= f(X))　　　　　　　　　　\end{matrix}\right.$
　　平方损失函数： $L(Y,f(X))=(Y-f(X))^{2}$
　　绝对损失函数： $L(Y,f(X))=|Y-f(X)|$
　　对数损失函数： $L(Y,f(X))=-logP(Y|X)$
损失函数期望：
　　　 $R_{exp}(f)=E_{p}[L(Y,f(X))]=\int_{X,Y}L(y,f(x))P(x,y)dxdy$
即模型 $f(X)$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失，成为风险函数或期望损失。
　　学习的目的：选择期望风险最小的模型，然而由于 $P(X,Y)$ 未知，故 $R_{exp}(f)$ 不能直接计算。这就是一个病态问题(ill-formed problem)，一方面要选择期望风险最小的模型要用到 $P(X,Y)$ ；另一方面 $P(X,Y)$ 又是未知的。故正面不能解决，就找到他的等价问题。
　　　经验风险： $R_{emp}(f)=min_{f\in H}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))$
$R_{emp}(f)$ 关于 $P(X,Y)$ 的期望损失。当 $N\rightarrow \propto$ 时， $R_{emp}(f)\approx R_{exp}(f)$ ，然而训练样本集数目有限，要对经验风险矫正保证正确率。最小化经验风险（ERM）和结构风险最小(SRM)就是解决上述情况。
　　ERM:　　 $min_{f\in H}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$
其中，H为假设空间，当模型为条件概率分布，损失函数为对数损失函数时，ERM等价于极大似然估计（Maximum Liklihood Estimation），适用于样本容量大时，而对于小样本时易产生过拟合。
　　结构风险：　 $\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$
添加正则项为防止过拟合现象，其中 $J(f)$ 衡量模型 $f$ 的复杂度： $f$ 复杂，对应 $J(f)$ 大，而 $f$ 简单时， $J(f)$ 小。当模型为条件概率分布时，损失函数为对数损失函数，等价于最大后验概率估计(Maximum Posterior Probability)，故SRM：
　　　 $min_{f\in H}\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)$
从而监督学习问题转化为，求解SRM和ERM问题。
3、算法
　　选择出最优模型，接下来就是根据求解模型从而得到全局最优解（有时由于目标函数求解复杂度，只能近似求解局部最优值）。
　　总结：其实就是三步，确定用什么模型（如：是线性问题啊，各种线性方程： $x+y=3,2x+5y=5$ 等等的）有了一个大概的符合集合，然后就是挑选最好的那个了，最后求解模型。
　　检验模型是否合理，我们不仅要使模型对训练样本的样本误差小，而且还要对未知数据正确预测，防止模型过度复杂，产生过拟合现象，提高模型的泛化能力；对模型进行验证一般采用：简单交叉验证、S折交叉验证、留一交叉验证；