Coursera ML 逻辑回归与正则化

最新推荐文章于 2020-12-23 20:35:23 发布

weixin_30590285

最新推荐文章于 2020-12-23 20:35:23 发布

阅读量75

点赞数

原文链接：http://www.cnblogs.com/KIDJourney/p/4444480.html

版权

分类与逻辑回归

逻辑回归

逻辑回归(Logistic Regression)是一种将数据分类的方法。如垃圾邮件识别，病情估计等。

与线性回归不同的是，逻辑回归的输出是离散的值，因此，预测函数也将于线性回归不同。

预测函数

为了使预测函数在0与1之间，我们使用Sigmoid函数对预测函数进行处理：

Sigmoid函数：\[g(z) = \frac{1}{1+e^{-z}}\]

预测函数为:
\[h_\theta(x) = g(X\theta) = \frac{1}{1+g^{-X\theta}}\]

预测函数的值表示结果为1的概率:
\[P(y=1|x;\theta) = h_\theta(x)\]
\[P(y=0|x;\theta) = 1 - h_\theta(x)\]

代价函数

Cost函数和J函数如下，它们是基于最大似然估计推导得到的:

向量化得:

\[J(\theta) = \frac{1}{m}\sum_{i=1}^nCost(h_\theta(x),y) = -\frac{1}{m}(-y^Tlog(g(X\theta)) - (1-y)^Tlog(1-g(X\theta))\]

梯度下降

代价函数求偏导：

θ更新过程:

向量化得:
\[\theta = \theta - a\frac{1}{m}(X^T*(X\theta-Y))\]

向量化后的计算步骤:
\[A = X\theta \]
\[E = g(A) - Y \]
\[\theta = \theta - aX^TE\]

正则化

过拟合问题

对于线性回归或逻辑回归的损失函数构成的模型，可能会有些权重很大，有些权重很小，导致过拟合（就是过分拟合了训练数据），使得模型的复杂度提高，泛化能力较差（对未知数据的预测能力）。
下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。

原因:
特征过多

解决方法:

减少特征数量(会导致特征信息丢失)
- 人工选择特征
- 模型选择算法
正则化（特征较多时比较有效）
- 保留所有特征，减小θ的大小

正则化方法：

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。

从房价预测问题开始，这次采用的是多项式回归。左图是适当拟合，右图是过拟合。

容易得到，如果想要解决这个过拟合问题，我们最好能将\(x^3\)与\(x^4\)的影响降到最小，即使\(\theta_3\approx0 , \theta_4\approx0\)。假设我们对于\(\theta_3 与 \theta_4\)进行惩罚，即加上两个较大的惩罚项，如:
\[J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_\theta(x_i)-y_i)^2 + 100\theta_3^2 + 100\theta_4^2\]
这样在进行梯度下降的时候，会得到\(\theta_3\approx0 , \theta_4\approx0\)
在线性回归中，正则化后的Cost函数为:
\[J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_\theta(x)-y)^2 + \lambda\sum_{j=1}^n\theta_j^2\]

\(lambda\)是正则项系数：