机器学习：从理论到实践-CSDN博客

本文概述了机器学习的基本理论，包括最优化理论、概率论、统计学、信息论等，重点介绍了代价函数、损失函数、经验风险、结构风险最小化等核心概念。讨论了如何通过经验风险最小化和结构风险最小化策略来选择最优模型，以及如何预防过拟合现象。本文旨在帮助读者理解机器学习过程并掌握关键方法。

机器学习方法概论2

前面已经介绍到监督学习的模型假设空间了，那么怎么把模型中的最好的选择出来呢，这就涉及到最优化理论中的一些方法了。所以说机器学习是是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个邻域的交叉学科了。首先来看几个重要的概率。

代价函数（cost function）或损失函数（loss function）是预测值与真实值之间的错误程度，之所以不用两者的“差值”而用“程度”，因为代价函数不一定是用差值来表示的，还可以用平方差，用对数等等。假设选取了一个决策函数f，损失函数就是预测值f(X)和输出Y的非负实值函数，记作L(Y,f(X))。损失函数值越小，模型就越好。由于模型的输入、输出（X,Y）是随机变量，遵循联合分布P（X,Y），所以损失函数的期望（又称期望损失 expected loss）是：

注意，这里是之所以可以用联合分布P（X,Y）来求期望，是因为f(X)是关于X的函数，L(Y,f(X))实质上是关于（X,Y）的函数，所以这样求期望是符合的。学习的目标就是选择期望损失最小的模型，而由于P（X,Y）我们是不知道的，这样上述式子就没法直接计算出一个式子出来，然后像求导啥的来解。正因为不知道，所以才要学习。

期望损失是求积分，是针对所有的变量（X,Y）来解，我们没法去找到所有的变量，但我们可以搞些训练数据，就是所有的变量（X,Y）的一部分数据，这样可以求给定的训练数据集下（假设有N个样本）的平均损失，即经验风险（empirical risk）。

根据大数定律，当样本容量N趋于无穷时，经验风险就趋于期望风险，所以一个很自然的想法就是用经验风险估计期望风险，但是毕竟现实中训练样本数目是有限的，甚至很小，所以用经验风险估计期望风险常常并不理想，但是也没有什么好的办法了，那么久只能在后期对经验风险进行一定的矫正。

如何矫正，就是我们所用的极大似然估计（maximum likelihood estimation）、贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation，MAP）之类的策略了。这讲起来又是很多内容，只是把大家引到这里，知道为什么要用这些方法，在什么情况下导出的用这些方法。这些在监督学习中都叫策略，两个基本的策略是：经验风险最小化和结构风险最小化。

经验风险最小化（empirical risk minimization，ERM）认为：经验风险最小的模型就是最优的模型，根据这一策略，就是求解如下最小化问题：

在现实中，当样本容量足够大时，能有较好的效果，被广泛采用，极大似然估计就是经验风险最小策略。但是，当样本容量很小时，效果就未必好了，会产生“过拟合（over-fitting）”现象，过拟合就是指学习时选择的模型所包含的参数过多（一般参数越多，模型越复杂，且对于已知的数据能很好的拟合），以至于出现这一，模型对已知训练数据预测得很好，但对未知数据预测得很差的现象。

结构风险最小化（structural risk minimization，SRM），是为了防止过拟合而提出的策略，等价于正则化（regularization），结构风险就是在经验风险上加上表示模型复杂度的正则化项（regularizer），正则化项可以是模型参数向量的范数，可以取不同的形式，例如回归问题中用到的L2范数。正则化的作用是选择经验风险与模型复杂度同时较小的模型，正则化符合奥卡姆剃刀（Occam's razor）原理，奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型。从贝叶斯估计的角度来看，正则化对应于模型的先验概率，可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。在假设空间、损失函数以及训练数据确定的情况下，结构风险定义是：

J(f)为模型复杂度，是定义在假设空间（即所有模型）上的泛函，模型f越复杂，复杂度J(f)就越大。最大后验概率估计就是结构风险最小化的一个例子。相应的结构风险策略认为结构风险最小的模型就是最优模型，所以就是求解如下最优化问题：

如何求解上面两个最优化的问题，并且高效准确，又是另一个重要的话题了，这里不展开，还是那句话只是引进来。模型选好后怎么评价，就是一些列定义的误差率、正确率啥的，这里也不展开了。到此，我觉得应该对机器学习的一个大概过程心中应该是有数了，我建议大家都能去这样推一推理一理，这样在以后的学习中碰到更多的新知识时会更加明确到底是干嘛，以及会让自己已经理解的系统不断庞大，最后从一个初学者中蜕变出来。（完）