机器学习（二）

最新推荐文章于 2024-05-02 21:46:15 发布

taotao693

最新推荐文章于 2024-05-02 21:46:15 发布

阅读量265

点赞数

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/taotao693/article/details/52425448

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

深度学习

1 篇文章 0 订阅

订阅专栏

逻辑回归

1.英文名称： $Logistic Regression$

2.逻辑函数 $（"sigmoid","logistic" function）$

h θ (x) = g (θ T x) = 1 1 + exp ( - θ ⊤ x ) \equiv σ (θ ⊤ x)

$\begin{align} h_\theta(x) & = g(\theta^Tx)= \frac{1}{1 + \exp(-\theta^\top x)} \equiv \sigma(\theta^\top x)\end{align}$
where:

g (z) = 1 1 + exp ( - z )

$\begin{align} \\ g(z)& =\frac{1}{1 + \exp(-z)} \end{align}$
逻辑函数为一个二分类函数，函数图形如下：

逻辑函数的图形

逻 辑 函 数

$逻辑函数$
设定：

P (y = 1 | x) P (y = 0 | x) = h θ (x) = 1 1 + exp ( - θ ⊤ x ) \equiv σ (θ ⊤ x), = 1 - P (y = 1 | x) = 1 - h θ (x) .

$\begin{align} P(y=1|x) &= h_\theta(x) = \frac{1}{1 + \exp(-\theta^\top x)} \equiv \sigma(\theta^\top x),\\ P(y=0|x) &= 1 - P(y=1|x) = 1 - h_\theta(x). \end{align}$
可以将上面的两个式子写成一个，如下：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) (1 - y)

$\begin{align} p(y|x;\theta) = (h_\theta(x))^y(1-h_\theta(x))^{(1-y)} \end{align}$
为了通过样本的训练得到未知参数

θ $\theta$ ,通过最大似然估计的方法，设样本数为m则有，如下似然函数：

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i - 1 m (h θ (x)) y (i) (1 - h θ (x)) 1 - y (i)

$\begin{align} L(\theta)&=\prod ^m_{i=1}p(y^{(i)}|x^{(i)};\theta)\\&= \prod ^m_{i-1}(h_\theta(x))^{y^{(i)}} (1-h_\theta(x))^{1-y^{(i)}} \end{align}$

利用最大似然函数计算方法，对似然函数取对数得到：

l (θ) = l o g (L (θ)) = \sum i = 1 m (y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))))

$\begin{align}l(\theta) &=log(L(\theta))\\&=\sum^m_{i=1} \left(y^{(i)} \log( h_\theta(x^{(i)}) ) + (1 - y^{(i)}) \log( 1 - h_\theta(x^{(i)}) ) \right)\end{align}$

最大化(Maximize) $l(\theta)$ ,利用 $l(\theta)$ 对 $\theta_j$ 求导得到：

\nabla θ j l (θ) = \partial l ( θ ) \partial θ j = y ( i ) h θ ( x ( i ) ) \nabla θ j h θ (x (i)) - 1 - y ( i ) 1 - h θ ( x ( i ) ) \nabla θ j h θ (x (i)) = (y ( i ) h θ ( x ( i ) ) - 1 - y ( i ) 1 - h θ ( x ( i ) )) \nabla θ j h θ (x (i)) = (y ( i ) g ( θ T x ) - 1 - y ( i ) 1 - g ( θ T x )) \nabla θ j g (θ T x) = (y ( i ) g ( θ T x ) - 1 - y ( i ) 1 - g ( θ T x )) g (θ T x) (1 - g (θ T x)) x j = (y - h θ (x)) x j

$\begin{align}\nabla_{\theta_j}l(\theta)&=\frac{\partial l(\theta)}{\partial \theta_j}\\ &=\frac {y^{(i)}}{h_\theta(x^{(i)})}\nabla_{\theta_j}h_\theta(x^{(i)})-\frac {1-y^{(i)}}{1-h_\theta(x^{(i)})}\nabla_{\theta_j}h_\theta(x^{(i)})\\&=(\frac {y^{(i)}}{h_\theta(x^{(i)})}-\frac {1-y^{(i)}}{1-h_\theta(x^{(i)})})\nabla_{\theta_j}h_\theta(x^{(i)})\\&=(\frac {y^{(i)}}{g(\theta^Tx)}-\frac {1-y^{(i)}}{1-g(\theta^Tx)})\nabla_{\theta_j}g(\theta^Tx)\\&=(\frac {y^{(i)}}{g(\theta^Tx)}-\frac {1-y^{(i)}}{1-g(\theta^Tx)})g(\theta^Tx)(1-g(\theta^Tx))x_j\\&=(y-h_\theta(x))x_j \end{align}$

上面的推导中有：

\partial g ( z ) \partial z = g (z) (1 - g (z)) .

$\begin{align}\frac{\partial g(z)}{\partial z}=g(z)(1-g(z)).\end{align}$

最后利用随机梯度上升方法：

θ j : = θ j + α (y - h θ (x)) x j .

$\begin{align} \theta_j:=\theta_j+\alpha(y-h_\theta(x))x_j.\end{align}$

Q1：为什么这里可以用梯度法可以取得最优解？
A1：
Q2：为什么是用梯度上升而不是梯度下降法？
A2：

taotao693

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（二）

逻辑回归1.英文名称：LogisticRegressionLogistic Regression2.逻辑函数（"sigmoid","logistic"function）（"sigmoid","logistic" function）hθ(x)=g(θTx)=11+exp(−θ⊤x)≡σ(θ⊤x)\begin{align}h_\theta(x) & = g(\theta^Tx)= \f
复制链接

扫一扫