斯坦福大学机器学习笔记(5)-logistic回归的优化

最新推荐文章于 2024-08-14 09:47:45 发布

softee

最新推荐文章于 2024-08-14 09:47:45 发布

阅读量2k

点赞数 1

分类专栏：心得文章标签：机器学习 logistic回归代价函数回归

本文链接：https://blog.csdn.net/softee/article/details/51582339

版权

心得专栏收录该内容

28 篇文章 1 订阅

订阅专栏

如前所述，回归是使用函数来模拟样本的。logistic回归，是对取值为0或1的布尔值的模拟。logistic回归中使用的函数的值域为[0, 1]，可以视为布尔输出为1的一个概率值。
已知包含 $m$ 个元素的的训练集合被表示为 $\{(x^{(1)},y^{(1)}), ..., (x^{(m)},y^{(m)})\}$ 。样本元素中的 $x^{(i)}$ 是一个向量： $x^{(i)}=(x_0^{(i)}, x_1^{(i)},..., x_n^{(i)})^T$ ， $x_0^{(i)}=1$ ， $y$ 是标量。向量 $\theta$ 是用来拟合的参数， $\theta=(\theta_0, \theta_1, ..., \theta_n)$ 。使用 $\theta$ 为参数的logistic回归函数 $h$ 是一个sigmoid函数，如下所示。
$h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ 。
问题是，如何选择合适的 $\theta$ 使得 $h_\theta$ 能够较好地拟合训练集？
选择之一：使用方差来定义代价函数。代价函数用于描述拟合函数的输出与训练集中给定输出之间的不同。方差代价函数定义如下。
$J(\theta)=\frac{1}{m}\Sigma_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ 。
但是，这种定义会面临一个问题，也就是 $J(\theta)$ 可能是一个非凸函数。而一般情况下，凸函数会是一个更好的选择。换句话说，在logistic回归中，其代价函数与线性回归的不同。
假设训练集中只有一个元素，那么当 $y=1$ 时，上述代价函数将被简化为：
$J(\theta)=(h_\theta(x)-1)^2$ 。
也就是说，当 $h_\theta(x)$ 趋近于期待值1时，其代价函数的值趋近于0。
当 $h_\theta(x)$ 趋近于错误的值0时，其代价函数的之趋近与1。代价函数的曲线如下图所示。
这里写图片描述
我们可以选择新的代价函数，使之具有下述属性。
若样本中期待值为1，则：
$h_\theta(x)\to1,J(\theta)\to0$ ； $h_\theta(x)\to0,J(\theta)\to\infty$ 。
此时代价函数的曲线如下图所示。

若样本中期待值为0，则：
$h_\theta(x)\to0,J(\theta)\to0$ ； $h_\theta(x)\to1,J(\theta)\to\infty$ 。
新的代价函数的数学定义如下。
若 $y=1,cost(h_\theta(x), y)=-\log h_\theta(x)$
若 $y=0,cost(h_\theta(x), y)=-\log (1-h_\theta(x))$
使用一个统一的函数来定义，代价如下（对于训练样本集中的单个元素）。
$cost(h_\theta(x),y)=-y\log h_\theta(x)-(1-y)\log (1-h_\theta(x))$
对于整个样本集而言，代价函数的定义如下。
$J(\theta)=\frac{1}{m}cost(h_\theta(x^{(i)},y^{(i)})$
$=-\frac{1}{m}[\Sigma_{i=1}^{m}y^{(i)}\log h_\theta(x)+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))]$
其中， $h_\theta$ 是取值为[0, 1]，用来拟合样本所对应函数的函数，被定义为如下形式。