【机器学习】逻辑回归（Linear Regression）模型推导

本文链接：https://blog.csdn.net/u014433413/article/details/78415540

LR中文翻译作逻辑斯蒂回归，用于二分类。为什么回归和分类搅在一起了呢。因为可以这样想：线性回归

y=θTx $y=\theta^Tx$ 得到的结果是一个实数。如果我们将这个结果“压缩”到 [0,1] 之间，那么就可以表示概率接近1的程度，进而可以用来二分类。最简单的“压缩”可以是单位阶跃函数：

但单位阶跃函数是不连续的，在求导的过程中会产生问题。所以，我们用sigmoid函数来近似单位阶跃函数：

σ (x) = 1 1 + e - x

$\sigma(x)=\frac{1}{1+e^{-x}}$

可以看到，在0附近其函数值变化较快。

从而我们得到：

样本 $x_i$ 属于1的概率：

h θ (x i) = p (y i = 1 | x i) = σ (θ T x i) = 1 1 + e - θ T x i

$h_{\theta}(x_i)=p(y_i=1|x_i) = \sigma(\theta^Tx_i) = \frac{1}{1+e^{-\theta^Tx_i}}$

样本 $x_i$ 属于0的概率：

p (y i = 0 | x i) = 1 - σ (θ T x i) = e - θ T x i 1 + e - θ T x i

$p(y_i=0|x_i) = 1-\sigma(\theta^Tx_i) = \frac{e^{-\theta^Tx_i}}{1+e^{-\theta^Tx_i}}$

将两式合并：

p (y | x) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y|x)=\Big(h_{\theta}(x)\Big)^y\Big(1-h_{\theta}(x)\Big)^{1-y}$

对所有样本取最大似然：

L (θ) = \prod i = 1 m p (y i | x i)

$L(\theta)=\prod_{i=1}^{m} p(y_i|x_i)$

记 $h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
取对数得：

l (θ) = log L (θ) = log \prod i = 1 m p (y i | x i) = \sum i = 1 m log p (y i | x i) = \sum i = 1 m log [(h θ (x i)) y i (1 - h θ (x i)) 1 - y i] = \sum i = 1 m [y i log (h θ (x i)) + (1 - y i) log (1 - h θ (x i))] = \sum i = 1 m [y i log (g (θ T x i)) + (1 - y i) log (1 - g (θ T x i))]

$\begin{split} l(\theta) = \log L(\theta)&=\log \prod_{i=1}^{m} p(y_i|x_i) \\ &=\sum_{i=1}^{m} \log p(y_i|x_i) \\ &=\sum_{i=1}^{m} \log \bigg[\Big(h_{\theta}(x_i)\Big)^{y_i}\Big(1-h_{\theta}(x_i)\Big)^{1-y_i}\bigg] \\ &=\sum_{i=1}^{m} \bigg[y_i\log \Big(h_{\theta}(x_i)\Big) + (1-y_i)\log \Big(1-h_{\theta}(x_i)\Big)^{}\bigg] \\ &=\sum_{i=1}^{m} \bigg[y_i\log \Big(g(\theta^Tx_i)\Big) + (1-y_i)\log \Big(1-g(\theta^Tx_i)\Big)^{}\bigg] \end{split}$

sigmoid函数导数形式为： $\sigma'(x)=\sigma(x)\big(1-\sigma(x)\big)$
参数第 j 个分量的梯度：

\partial l ( θ ) \partial θ j = \sum i = 1 m [y i 1 g \partial g \partial θ j - (1 - y i) 1 1 - g \partial g \partial θ j] = \sum i = 1 m [y i 1 g g' \partial ( θ T x i ) \partial θ j - (1 - y i) 1 1 - g g' \partial ( θ T x i ) \partial θ j] = \sum i = 1 m [y i 1 g g (1 - g) x j i - (1 - y i) 1 1 - g g (1 - g) x j i] = \sum i = 1 m (y i - g (θ T x i)) x j i

$\begin{split} \frac{\partial l(\theta)}{\partial \theta^j} &= \sum_{i=1}^{m} \bigg[y_i\frac{1}{g} \frac{\partial g}{\partial \theta^j} - (1-y_i)\frac{1}{1-g} \frac{\partial g}{\partial \theta^j} \bigg] \\ &=\sum_{i=1}^{m} \bigg[y_i\frac{1}{g}g' \frac{\partial (\theta^Tx_i)}{\partial \theta^j} - (1-y_i)\frac{1}{1-g}g' \frac{\partial (\theta^Tx_i)}{\partial \theta^j} \bigg] \\ &=\sum_{i=1}^{m} \bigg[y_i\frac{1}{g}g(1-g) x_i^j - (1-y_i)\frac{1}{1-g}g(1-g) x_i^j \bigg] \\ &=\sum_{i=1}^{m} (y_i-g(\theta^Tx_i))x_i^j \end{split}$

由于要求最大似然，所以用梯度上升法：