机器学习笔记-6.5逻辑回归的代价函数及其求导

最新推荐文章于 2024-02-29 11:26:11 发布

JasonLiu1919

最新推荐文章于 2024-02-29 11:26:11 发布

阅读量7.9k

点赞数 8

分类专栏：机器学习

本文链接：https://blog.csdn.net/ljp1919/article/details/79120761

版权

机器学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

0- 背景

定义逻辑回归的代价函数时，不能够像线性回归那样，否则代价函数变成一个非函数，难以收敛到全局最优。

1- 线性回归代价函数：

线性回归中的代价函数：

J (θ) = 1 2 m \sum i = 1 m (y i - h θ (x i)) 2

$J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}(y^{i}-h_{\theta }(x^{i}))^{2}$

线性回归代价函数的实际意义就是平方误差。而逻辑回归却不是，它的预测函数 $h_{\theta}(x)$ 是非线性的。如果类比地使用线性回归的代价函数于逻辑回归，那 $J(θ)$ 很有可能就是非凸函数，即存在很多局部最优解，但不一定是全局最优解。我们希望构造一个凸函数，也就是一个碗型函数做为逻辑回归的代价函数。

2- 逻辑回归代价函数：

按照求最大似然函数的方法，逻辑回归似然函数：

L (θ) = \prod i = 1 m P (y i | x i; θ) = \prod i = 1 m (h θ (x i)) y i ((1 - h θ (x i))) 1 - y i

$L(\theta )=\prod_{i=1}^{m}P(y_{i}|x_{i};\theta )=\prod_{i=1}^{m}(h_{\theta }(x_{i}))^{y_{i}}((1-h_{\theta }(x_{i})))^{1-y_{i}}$
其中m表示样本数量，取对数：

l (θ) = l o g L (θ) = \sum i = 1 m (y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i)))

$l(\theta )=logL(\theta )=\sum_{i=1}^{m}(y_{i}logh_{\theta }(x_{i})+(1-y_{i})log(1-h_{\theta }(x_{i})))$
我们的目标是求最大

l(θ) $l(θ)$ 时的θ，如上函数是一个上凸函数，可以使用梯度上升来求得最大似然函数值(最大值)。或者上式乘以-1，变成下凸函数，就可以使用梯度下降来求得最小负似然函数值（最小值）：

J (θ) = - 1 m l (θ)

$J(\theta )=-\frac{1}{m}l(\theta )$
我们把如上的

J(θ) $J(θ)$ 作为逻辑回归的损失函数。

求最大似然函数参数时，对参数θ求偏导=0，然后求解方程组。考虑到参数数量的不确定，即参数数量很大，此时直接求解方程组的解变的很困难，或者根本就求不出精确的参数。于是，一般都是采用随机梯度下降法，来求解方程组的参数值。
推导过程：
1)梯度下降 $θ$ 的更新过程，走梯度方向的反方向：

θ j : = θ j - α δ δ θ j J (θ)

$\theta _{j}:=\theta _{j}-\alpha\frac{\delta }{\delta _{\theta _{j}}}J(\theta )$
其中偏导项的推导如下：

δ δ θ j J (θ) = - 1 m \sum i = 1 m (y i 1 h θ ( x i ) δ δ θ j h θ (x i) - (1 - y i) 1 1 - h θ ( x i ) δ δ θ j h θ (x i)) = - 1 m \sum i = 1 m (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) δ δ θ j g (θ T x i) = - 1 m \sum i = 1 m (y i 1 g ( θ T x i ) - (1 - y i) 1 1 - g ( θ T x i )) g (θ T x i) (1 - g (θ T x i)) δ δ θ j θ T x i = - 1 m \sum i = 1 m (y i (1 - g (θ T x i)) - (1 - y i) g (θ T x i)) x j i = - 1 m \sum i = 1 m (y i - g (θ T x i)) x j i = 1 m \sum i = 1 m (h θ (x i) - y i)) x j i

$\frac{\delta }{\delta _{\theta _{j}}}J(\theta )=-\frac{1}{m}\sum_{i=1}^{m}\left ( y_{i}\frac{1}{h_{\theta }(x_{i})} \frac{\delta }{\delta _{\theta _{j}}}h_{\theta }(x_{i})-(1-y_{i})\frac{1}{1-h_{\theta }(x_{i})}\frac{\delta }{\delta _{\theta _{j}}}h_{\theta }(x_{i})\right ) \\=-\frac{1}{m}\sum_{i=1}^{m}\left ( y_{i}\frac{1}{g(\theta ^{T}x_{i})}-(1-y_{i})\frac{1}{1-g(\theta ^{T}x_{i})}\right )\frac{\delta }{\delta _{\theta _{j}}}g(\theta ^{T}x_{i}) \\=-\frac{1}{m}\sum_{i=1}^{m}\left ( y_{i}\frac{1}{g(\theta ^{T}x_{i})}-(1-y_{i})\frac{1}{1-g(\theta ^{T}x_{i})}\right )g(\theta ^{T}x_{i})(1-g(\theta ^{T}x_{i}))\frac{\delta }{\delta _{\theta _{j}}}\theta ^{T}x_{i} \\=-\frac{1}{m}\sum_{i=1}^{m}(y_{i}(1-g(\theta ^{T}x_{i}))-(1-y_{i})g(\theta ^{T}x_{i}))x_{i}^{j} \\=-\frac{1}{m}\sum_{i=1}^{m}(y_{i}-g(\theta ^{T}x_{i}))x_{i}^{j} \\=\frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x_{i})-y_{i}))x_{i}^{j}$

注意下上面推导的第二部分：

(f ( x ) g ( x ))' = g ( x ) f ' ( x ) - f ( x ) g ' ( x ) g 2 ( x ) (e x)' = e x

$\left (\frac{f(x)}{g(x)} \right ){}'=\frac{g(x)f{}'(x)-f(x)g{}'(x)}{g^{2}(x)} \\\left (e^{x} \right ){}'=e^{x}$
那么上述公式中的

δδθjg(θTxi) $\frac{\delta }{\delta _{\theta _{j}}}g(\theta ^{T}x_{i})$ 推导如下：

δ δ θ j g (θ T x i) = - e - θ T x i ( 1 + e - θ T x i ) 2 δ δ θ j (- 1) θ T x i = g (θ T x i) (1 - g (θ T x i)) δ θ j θ T x i

$\frac{\delta }{\delta _{\theta _{j}}}g(\theta ^{T}x_{i})=-\frac{e^{-\theta^{T} x_{i}}}{(1+e^{-\theta^{T} x_{i}})^{2}}\frac{\delta }{\delta _{\theta _{j}}}(-1)\theta^{T} x_{i} =g(\theta ^{T}x_{i})(1-g(\theta ^{T}x_{i})){\delta _{\theta _{j}}}\theta^{T} x_{i}$

因此更新过程可以写成：

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x i) - y i)) x j i

$\theta _{j}:=\theta _{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta }(x_{i})-y_{i}))x_{i}^{j}$

JasonLiu1919

关注

8
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记-6.5逻辑回归的代价函数及其求导

0- 背景定义逻辑回归的代价函数时，不能够像线性回归那样，否则代价函数变成一个非函数，难以收敛到全局最优。1- 线性回归代价函数：线性回归中的代价函数： J(θ)=12m∑i=1m(yi−hθ(xi))2J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}(y^{i}-h_{\theta }(x^{i}))^{2}线性回归代价函数的实际意义就是平方误差。
复制链接

扫一扫