(斯坦福机器学习课程笔记)正则化和机器学习应用的建议

最新推荐文章于 2020-03-21 15:13:17 发布

万德1010

最新推荐文章于 2020-03-21 15:13:17 发布

阅读量426

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_32231743/article/details/54962319

版权

机器学习专栏收录该内容

24 篇文章 4 订阅

订阅专栏

===================================正则化=======================
记得在logistic回归那一节课中，当时我对取似然函数 $L(\theta)=\prod P(y_i|x_I;\theta)$ 这一步是不理解的。因为我觉得优化函数应该是这样的: $\max\limits_\theta P(\theta|x,y)$ ，即给定训练集合 $\{x,y\}$ 时，可能性最大的 $\theta$ 。

很幸运的是，这一节课解答了我的疑问。
因为

P (θ | x, y) = P ( x , y | θ ) P ( θ ) P ( x , y ) = P ( y | x , θ ) P ( x ) P ( θ ) P ( y | x ) P ( x ) = P ( y | x , θ ) P ( θ ) P ( y | x )

$P(\theta|x,y)=\frac{P(x,y|\theta)P(\theta)}{P(x,y)}=\frac{P(y|x,\theta)P(x)P(\theta)}{P(y|x)P(x)}=\frac{P(y|x,\theta)P(\theta)}{P(y|x)}$
其中调整

θ $\theta$ 不会改变

P(y|x) $P(y|x)$
因此

a r g m a x θ P (θ | x, y) = a r g m a x θ \prod i = 1 m P (y i | x i, θ) P (θ)

$argmax_\theta \ \ \ P(\theta|x,y)=argmax_\theta \ \ \ \prod \limits_{i=1}^{m}P(y^i|x^i,\theta)P(\theta)$
可以看到，与logistic回归相比，优化函数仅仅多了一项

P(θ) $P(\theta)$ 。
为了计算方便，一般会对连乘的优化函数取对数，即

a r g m a x θ \sum i = 1 m l o g P (y i | x i, θ) + l o g P (θ)

$argmax_\theta\ \ \ \sum\limits_{i=1}^{m}logP(y^i|x^i,\theta)+logP(\theta)$
先验概率

P(θ) $P(\theta)$ 一般取高斯分布或拉普拉斯分布
高斯分布:

12π√σexp(−(x−μ)22σ2) $\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
拉普拉斯分布:

12√σexp(−2√σ|x|) $\frac{1}{\sqrt2\sigma} exp(-\frac{\sqrt2}{\sigma}|x|)$

使用 $N(0,\sigma^2)$ 高斯分布时，用e做对数的底， $logP(\theta)=log\frac1 {\sqrt{2\pi}\sigma} -\frac{\theta^2}{2\sigma^2}$ ，在优化时，只有后一项起作用，即 $-\frac{\theta^2}{2\sigma^2}=\lambda \theta^2$ ，称为2范数正则化。

使用拉普拉斯分布时，同样用e做对数的底， $logP(\theta)=log\frac{1}{\sqrt2\sigma}-\frac{\sqrt2}{\sigma}|\theta|$ ，同样，在优化时，只有后一项起作用，即 $\frac{\sqrt2}{\sigma}|\theta|=\lambda|\theta|$ ，称为1范数正则化。

加入期望值为0的高斯分布或者拉普拉斯分布作为先验概率，正则化要求参数尽可能接近0，使得部分的特征效果减弱，降低过拟合的风险。特别的，1范数还有使特征稀疏的效果。

===========================机器学习应用的建议==================
当我们的机器学习算法出现问题时，解决的一般思路是：

1 先看偏差是否达到我们的要求，如果偏差过大，则说明可能(1)模型弱了(2)目标函数不能反映真实的需求(3)优化方法有问题，如过早结束训练等

2 如果偏差达到了我们的要求，再看方差是否和偏差相近。如果偏差距离方差远，则说明可能，对于训练样本，模型过强。解决办法是(1)降低模型复杂度，但这有可能增大偏差(2)应用正则化(3)提前结束训练等

======================误差分析和消蚀分析============================
误差分析和消蚀分析和前面笔记中的特征分析方法很相似，特征分析方法是判断某个特征对模型能力的影响力的大小，从而剔除无用的特征，而误差分析和消蚀分析是判断机器学习某个步骤或某个组成部分对模型能力的影响力的大小，从而剔除无用的步骤或组成部分。算法的思路相似。

值得注意的是，跟特征分析方法相同，因为各个步骤或组成部分相互影响，因此误差分析和消蚀分析对选取步骤或组成部分的顺序敏感，需要多次实验。

=========================机器学习通用方法=======================
两种方法：
1 精心设计，慢工出细活。这种方法适用于对项目从头到尾都了然于胸的老手。

2quick and dirty 方法。先快速建立模型，然后通过一步步修改，得到最终的模型。对于一个又挑战性的项目，这种方法比较合适。

吴恩达说，他个人比较喜欢第二种方法。