Machine Learning_Logistic Regression&Sigmoid Function的数学推导

最新推荐文章于 2021-10-29 11:47:16 发布

夏大兔

最新推荐文章于 2021-10-29 11:47:16 发布

阅读量389

点赞数 1

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/xiayiqian71/article/details/80955441

版权

Machine Learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Logistic Regression假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。
Logistic/Sigmoid Function可以通过广义线性模型推导得到。

Logistic Regression推导

因为要解决二分类问题，我们利用logistic function将线性模型映射到 $(0,1)$ 之间：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^T x}}$
其中，

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+e^{-z}}$
被称为 logistic function或 sigmoid function。

概率分布表示为：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$P(y=1 | x;\theta) = h_{\theta}(x) \\ P(y=0 | x;\theta) = 1 - h_{\theta}(x)$
即:

p (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$p(y|x;\theta) = h_{\theta}(x)^y (1-h_{\theta}(x))^{1-y}$

如果有m个训练样本，则最大似然函数为：

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)

$L(\theta) = \prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta) = \prod_{i=1}^{m}h_\theta(x^{(i)})^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$
取对数似然函数，有：

l (θ) = l o g L (θ) = \sum i = 1 m y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))

$l(\theta) = logL(\theta) = \sum_{i=1}^{m}y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))$

利用随机梯度下降法，迭代求解有：

θ : = θ + α \nabla θ l (θ)

$\theta := \theta + \alpha \nabla_{\theta}l(\theta)$
(Tips: 由于是MAX，所以是加号；MIN时，用减号)

\partial \partial θ j l (θ) = [y 1 g ( θ T x ) - (1 - y) 1 1 - g ( θ T x )] \partial \partial θ j g (θ T x) = (y - h θ (x)) x j

$\frac{\partial}{\partial \theta_j} l(\theta) = [y \frac{1}{g(\theta^T x)} - (1-y)\frac{1}{1-g(\theta^T x)}] \frac{\partial}{\partial \theta_j} g(\theta^T x) \\ = (y-h_{\theta}(x))x_j$

故，

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j

$\theta_j := \theta_j + \alpha (y^{(i)}-h_{\theta}(x^{(i)}))x_j^{(i)}$

Sigmoid函数/Logistic函数

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+e^{-z}}$

g' (z) = d d z 1 1 + e - z = g (z) (1 - g (z))

$g'(z) = \frac{d}{dz} \frac{1}{1+e^{-z}} = g(z)(1-g(z))$

Logistic/Sigmoid Function推导

做回归，线性回归时，我们假设数据符合高斯分布： $y|x;\theta \sim \mathcal N(\mu, \sigma^2)$
做分类，逻辑回归时，我们假设数据符合伯努利分布： $y|x;\theta \sim Bernoulli(\phi)$

其实，两者都属于广义线性模型（GLM）

广义线性模型(Generalized Linear Model, GLM)

指数族分布(Exponential family distribution)

$p (y; η) = b (y) e x p (η T T (y) - a (η))$ $p(y;\eta) = b(y)exp(\eta^T T(y)-a(\eta))$
伯努利分布
- 逻辑回归中，
  $p (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y$ $p(y|x;\theta) = h_{\theta}(x)^y (1-h_{\theta}(x))^{1-y}$
- 记 $h_{\theta}(x) = g(\theta^T x) = \phi$ ，则有：
  $p (y; ϕ) = ϕ y (1 - ϕ) 1 - y = e x p (y l o g ϕ + (1 - y) l o g (1 - ϕ)) = e x p (l o g (ϕ 1 - ϕ) y + l o g (1 - ϕ))$ $p(y;\phi) = \phi ^y (1-\phi)^{1-y} = exp(y log\phi + (1-y)log(1-\phi))\\ = exp(log(\frac{\phi}{1-\phi})y + log(1-\phi))$
- 有：
  $b (y) = 1 η = l o g ϕ 1 - ϕ T (y) = y a (η) = - l o g (1 - ϕ) = l o g (1 + e η)$ $b(y) = 1\\ \eta = log\frac{\phi}{1-\phi}\\ T(y) = y\\ a(\eta) = -log(1-\phi)=log(1+e^{\eta})$
高斯分布，令 $\sigma^2=1$

p(y;μ)=12π‾‾‾√exp(−12(y−μ)2)=exp(−12y2)2π‾‾‾√·exp(μy−12μ2)
- 有：
  $b (y) = e x p ( - 1 2 y 2 ) 2 π ‾ ‾ ‾ \sqrt η = μ T (y) = y a (η) = μ 2 / 2 = η 2 / 2$ $b(y) = \frac{exp(-\frac{1}{2}y^2)}{\sqrt {2\pi}}\\ \eta = \mu\\ T(y) = y\\ a(\eta) = \mu^2 /2 = \eta^2 /2$

广义线性模型需要满足的三个条件

$y|x;\theta \sim ExponentialFamily(\eta)$
给定一个 $x$ ，我们需要预测 $T(y)$ ，一般来说 $T(y) = y$ ，也就是我们需要通过学习学得一个假设 $h$ ， $h(x) = E[y|x]$
The natural parameter $\eta$ 和输入 $x$ 是线性相关的， $\eta = \theta^T x$

推导得到Logistic/Sigmoid Function

在逻辑回归中，我们希望学到的假设 $h$ ，有：
$h_{θ} (x) = E [y | x; θ] = ϕ$ $h_{\theta}(x)=E[y|x;\theta]=\phi$
由GLM我们知道有：
$η = l o g ϕ 1 - ϕ$ $\eta = log\frac{\phi}{1-\phi}$
可推出：
$ϕ = 1 1 + e - η = 1 1 + e - θ T x$ $\phi = \frac{1}{1+e^{-\eta}} = \frac{1}{1+e^{-\theta^T x}}$