吴恩达机器学习笔记(2) 逻辑回归

最新推荐文章于 2024-08-07 12:25:50 发布

Peggy-haha

最新推荐文章于 2024-08-07 12:25:50 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u014202086/article/details/76974054

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

回归问题

线性回归

线性回归公式
$h (θ) = θ T X$ $h(\theta) = \theta^TX$
$\mbox{当}h(\theta)\ge0\mbox{ 时}, y=1;\mbox{当}h(\theta)<0\mbox{时}, y=0$

逻辑回归

逻辑回归公式
假设 $h_\theta(x^{(i)})$ ， $h_\theta(x^{(i)})$ 可以是y=1的概率。当为多分类问题时， $h_\theta(x^{(i)})$ 可以作为样本属于当前类别的概率训练多个逻辑回归分类器用以实现多分类。
$h θ (x (i)) = P (y = i | x : θ)$ $h_\theta(x^{(i)})=P(y=i|x:\theta)$
$\mbox{当}z\ge0.5\mbox{ 时}, y=1;\mbox{当}z<0.5\mbox{ 时}, y=0$ ：
$h θ (x (i)) = 1 1 + e - θ T X$ $h_\theta(x^{(i)}) = \frac{1}{1+e^{-\theta^TX}}$
则，代价函数定义为：
$J (θ) = - 1 m \sum i m y (i) l o g (h θ (x (i))) + (1 - y (i) l o g (1 - h θ (x (i)))$ $J(\theta)=-\frac{1}{m}\sum_i^m{y^{(i)}log(h_\theta(x^{(i)})) +(1-y^{(i)}log(1-h_\theta(x^{(i)}))}$
采用梯度下降法进行求解：
$θ j : = θ j - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j$ $\theta_j:=\theta_j-\alpha\sum_{i=1}^m{(h_\theta(x^{(i)}) -y^{(i)})x_j^{(i)}}$

解目标函数的方法

Gradient descent, 梯度下降法
Conjugate descent，共轭梯度
BFGS
L-BFGS
后三种与梯度下降法相比：不需要设置学习率；收敛速度快

避免overfitting

在模型训练时，由于数据较少或者模型过于复杂，会产生过拟合的现象，避免过拟合主要有两种方法：
1. 减少特征维数，人工选择特征或者模型选择
2. 正则化（regularization），抑制参数的值。适用于特征多的情况

正则化

在训练模型时，希望得到的分类模型是一个simple的模型。我们希望某些参数的值特别小，通过在目标函数中添加惩罚实现。
例如下面的目标函数：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n{\theta_j^2}$
其中

λ∑nj=1θ2j $\lambda\sum_{j=1}^n{\theta_j^2}$ 是正则化项。

最小化目标函数

m i n J (θ)

$min{ J(\theta)}$

如果 $\lambda$ 设置为非常大，可能模型最后只剩下 $\theta_0$ 。所以 $\lambda$ 的设置也非常重要。

有正则项，参数解法

参数梯度计算

前面讲到了使用梯度下降法最小化目标函数的解法，在有正则项的情况下，优化目标函数：
Gradient descent
{
　　　repeat:
　　　　　　　 $\theta_0:=\theta_0-\alpha\sum_{i=1}^m{(h_\theta(x^{(i)}) -y^{(i)})x_0^{(i)}}$
　　　　　　　 $\theta_j:=\theta_j-\alpha[\sum_{i=1}^m{(h_\theta(x^{(i)}) -y^{(i)})x_j^{(i)}}+\frac{\lambda}{m}\theta_j]$
}
第二个可以写成：