第二章 Logistic回归

最新推荐文章于 2024-07-22 10:11:40 发布

qq_28264857

最新推荐文章于 2024-07-22 10:11:40 发布

阅读量622

点赞数

分类专栏：机器学习文章标签：机器学习 Logistic回归 softmax回归

本文链接：https://blog.csdn.net/qq_28264857/article/details/79003339

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1 Logistic回归

1.1 线性回归与Logistic回归

这里写图片描述
如图1所示，其中紫色为线性回归，绿色为Logistic回归。
图1中右图，可以看出线性回归会有很多点都是错的。

如图2所示，左边线性回归，右边为Softmax回归。可以看出线性回归的效果太差了。

1.2 Logistic/sigmoid函数

这里写图片描述
如上图3所示，方程为 $g(z) = \frac{1}{1 + e^{-z}}$ ，此方式称为s曲线，也叫做sigmoid函数和Logistic函数。

1.3 Logistic回归的模型

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}$
此模型可以看出，值域是[0,1]。我们可以取到一个值为阈值，如0.5，一部分取正的，一部分取负的。这样我们就可以做分类了。这就是选取此模型的思路。
下面我们来求模型的梯度，也就是导数，过程如下：

g' (x) = (1 1 + e - z)' = e - z ( 1 + e - z ) 2 = 1 1 + e - z e - z 1 + e - z = 1 1 + e - z (1 - 1 1 + e - z) = g (x) (1 - g (x))

$g'(x) = \left(\frac{1}{1 + e^{-z}}\right)' = \frac{e^{-z}}{(1 + e^{-z})^2} =\frac{1}{1 + e^{-z}}\frac{e^{-z}}{1 + e^{-z}} =\frac{1}{1 + e^{-z}}\left(1 - \frac{1}{1 + e^{-z}}\right) = g(x)(1-g(x))$

1.4 参数估计

1、假定模型服从两点分布（B分布）
$P(y=1 | x;\theta)=h_\theta(x)$
$P(y=0 | x;\theta)=1-h_\theta(x)$
有上面的分段函数，可以将其变形得出函数：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$
由此假定样本相互独立，同时服从两点分布，可以得出似然函数：

L (θ) = p (y ⃗ | X; θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$L(\theta) = p(\vec y|X;\theta) =\prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) =\prod_{i=1}^m (h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}}$
2、对数似然函数 LL
上面的似然函数出现连乘，我们利用对数来处理，得到对数似然函数：

l (θ) = l o g L (θ) = \sum i = 1 m [y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))]

$l(\theta)=logL(\theta)=\sum_{i=1}^m\left[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))\right]$
然后对

l(θ) $l(\theta)$ 求偏导，过程如下：
这里写图片描述

3、参数的迭代
Logistic回归的参数学习规则：

θ j : = θ j + α (y (i) - h θ (x (i))) x (i) j

$\theta_j:=\theta_j + \alpha\left(y^{(i)}- h_\theta(x^{(i)})\right)x_j^{(i)}$
比较上面的结果和线性回归的结论的差别，可以看出他们具有相同的形式。
4、对比线性回归
线性回归 == MLE + Gauss
Logistic回归 == MLE + Bernoulli
我们有理由认为Gauss和Bernoulli都是属于指数族分布。
因此，Logistic回归是线性回归的推广，或者说是一种广义的线性回归。

1.5 对数线性模型

1、一个事件的几率odds，是指该事件发生的概率与该事件不发生的概率的比值。
2、对数几率： $logit$ 函数
$P(y=1 | x;\theta)=h_\theta(x)$
$P(y=0 | x;\theta)=1-h_\theta(x)$
由此求出 $logit$ 。

l o g i t (p) = l o g p 1 - p = l o g h θ ( x ) 1 - h θ ( x ) = l o g ⎛ ⎝ ⎜ ⎜ 1 1 + e - θ T x e - θ T x 1 + e - θ T x ⎞ ⎠ ⎟ ⎟ = θ T x

$logit(p)=log\frac{p}{1-p}=log\frac{h_\theta(x)}{1-h_\theta(x)} = log\left(\frac{\frac{1}{1+ e^{-\theta^Tx}}}{\frac{e^{-\theta^Tx}}{1+ e^{-\theta^Tx}}}\right) =\theta^Tx$
可知，Logistic回归是几率取对数的情况下的线性，也可以说是对数线性回归。

1.6 倒推sigmoid函数

l o g p 1 - p = θ T x

$log\frac{p}{1-p}=\theta^Tx$

= > p 1 - p = e θ T x

$=>\frac{p}{1-p} = e^{\theta^Tx}$

= > p = e θ T x - p e θ T x

$=>p=e^{\theta^Tx}-pe^{\theta^Tx}$

= > p (1 + e θ T x) = e θ T x

$=>p(1+e^{\theta^Tx})=e^{\theta^Tx}$

= > p = e θ T x 1 + e θ T x = 1 1 + e - θ T x

$=>p=\frac{e^{\theta^Tx}}{1+e^{\theta^Tx}}= \frac{1}{1+e^{-\theta^Tx}}$
由此上面的Logistic回归输出的0.4，0.8，就可以认为它属于1这个类别的概率。

1.7 Logistic回归的损失函数（目标函数）

样本： $y_i\in{0,1}$
样本预测值：
$\hat y_i = \begin{cases} p_i, & y_i=1 \\ 1-p_i, & y_i=0 \end{cases}$
1、似然函数

L (θ) = \prod i = 1 m p y i i (1 - p i) 1 - y i

$L(\theta) = \prod_{i=1}^m p_i^{y_i}(1-p_i)^{1-y_i}$

= > l (θ) = l o g L (θ) = \sum i = 1 m l n [(p i) y i (1 - p i) 1 - y i]

$=>l(\theta) = logL(\theta) = \sum_{i=1}^m ln\left[(p_i)^{y_i}(1-p_i)^{1-y_i}\right]$

- \to - - - - - - p i = 1 1 + e - f i l (θ) = \sum i = 1 m l n [(1 1 + e - f i) y i (1 1 + e f i) 1 - y i]

$\xrightarrow{p_i=\frac{1}{1+e^{-f_i}}}l(\theta) = \sum_{i=1}^m ln\left[\left(\frac{1}{1+e^{-f_i}}\right)^{y_i}\left(\frac{1}{1+e^{f_i}}\right)^{1-y_i}\right]$
2、损失函数 NLL
因为似然函数是一个正向的，只能取最大值。所以损失函数取似然函数的相反数。

l o s s (y i, y ̂ i) = - l (θ) = \sum i = 1 m [y i l n (1 + e - f i) + (1 - y i) l n (1 + e f i)]

$loss(y_i, \hat y_i) = -l(\theta) = \sum_{i=1}^m\left[y_iln(1+e^{-f_i})+(1-y_i)ln(1+e^{f_i})\right]$
3、进一步优化loss函数
样本：

yi∈−1,1 $y_i\in{-1,1}$
样本预测值：

ŷ i={pi,1−pi,yi=1yi=−1 $\hat y_i = \begin{cases} p_i, & y_i=1 \\ 1-p_i, & y_i=-1 \end{cases}$
似然函数可以变为：

L (θ) = \prod i = 1 m p y i + 1 2 i (1 - p i) - y i - 1 2 = > \sum i = 1 m l n [p y i + 1 2 i (1 - p i) - y i - 1 2]

$L(\theta) = \prod_{i=1}^m p_i^{\frac{y_i+1}{2}}(1-p_i)^{-\frac{y_i-1}{2}} => \sum_{i=1}^m ln\left[p_i^{\frac{y_i+1}{2}}(1-p_i)^{-\frac{y_i-1}{2}}\right]$

- \to - - - - - - p i = 1 1 + e - f i l (θ) = \sum i = 1 m l n ⎡ ⎣ ⎢ ⎢ (1 1 + e - f i) y i + 1 2 (1 1 + e f i) - y i - 1 2 ⎤ ⎦ ⎥ ⎥

$\xrightarrow{p_i=\frac{1}{1+e^{-f_i}}}l(\theta) = \sum_{i=1}^m ln\left[\left(\frac{1}{1+e^{-f_i}}\right)^{\frac{y_i+1}{2}}\left(\frac{1}{1+e^{f_i}}\right)^{-\frac{y_i-1}{2}}\right]$
同样：

l o s s (y i, y ̂ i) = - l (θ) = \sum i = 1 m [1 2 (y i + 1) l n (1 + e - f i) - 1 2 (y i - 1) l n (1 + e f i)]

$loss(y_i, \hat y_i) = -l(\theta) = \sum_{i=1}^m\left[\frac{1}{2}(y_i+1)ln(1+e^{-f_i})-\frac{1}{2}(y_i-1)ln(1+e^{f_i})\right]$

= {\sum m i = 1 [l n (1 + e - f i)], \sum m i = 1 [l n (1 + e f i)], y i = 1 y i = - 1

$=\begin{cases} \sum_{i=1}^m\left[ln(1+e^{-f_i})\right], & y_i=1 \\ \sum_{i=1}^m\left[ln(1+e^{f_i})\right], & y_i=-1 \end{cases}$

= > l o s s (y i, y ̂ i) = \sum i = 1 m [l n (1 + e - y i f i)]

$=>loss(y_i, \hat y_i) =\sum_{i=1}^m\left[ln(1+e^{-y_if_i})\right]$

2 Softmax回归–多分类

2.1 max函数

函数 $max(\theta_1,\theta_2) = \begin{cases} \theta_1, & \theta_1>\theta_2 \ \theta_2, & \theta_1>\theta_2 \end{cases}$ ，
进一步优化函数， $f(\theta_1,\theta_2) = ln(e^{\theta_1} + e^{\theta_2})$
其图形为：
这里写图片描述
由此可知，softmax名字的由来，就是软化的max。

2.2 softmax回归定义

1、二分类，Logistic回归
样本 $x（x_1,x_2,....,x-n）$ 是n维向量，那么他就有 $(\theta_1,\theta2,....\theta_n)$ n个参数。
2、K分类，softmax回归

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1, 2, ⋮ k, θ ⃗ 1 θ ⃗ 2 ⋮ θ ⃗ k θ 11 . . . θ 1 n θ 21 . . . θ 2 n ⋮ θ k 1 . . . θ k n

$\begin{cases} 1, & \vec\theta_1 & \theta_{11} ... \theta_{1n}\\ 2, & \vec\theta_2 & \theta_{21} ... \theta_{2n} \\ \vdots & \vdots & \vdots \\ k, & \vec\theta_k & \theta_{k1} ... \theta_{kn} \end{cases}$
这样softmax回归就会有k*n个参数，
第k类的参数为

θ⃗ k $\vec\theta_k$ ，组成二维矩阵

θk∗n $\theta_{k*n}$ 。

3、k个 $\vec\theta$ 都是自由的吗？
我们选取二分类softmax回归应该等价于Logistic回归。
此时二分类的softmax回归的模型应该是 $\frac{e^{\theta_1x}}{e^{\theta_1x} + e^{\theta_2x}} = \frac{1}{1+ e^{(\theta_2-\theta_1)x}}$
$\xrightarrow{\vec\theta = -(\theta_2-\theta_1)}\frac{1}{1+e^{-\vec\theta x}}$
由此可得到，二分类的softmax回归模型就是Logistic回归的模型。
注：softmax回归的参数是 $(n-1)*k$ ，当为logistic回归时， n=2,
4、概率为：

p (c = k | x; θ) = e x p ( θ T k x ) \sum k l = 1 e x p ( θ T l x ) ), k = 1, 2, . . . . ., K

$p(c=k|x;\theta) = \frac{exp(\theta_k^Tx)}{\sum_{l=1}^kexp(\theta_l^Tx))},k=1,2,.....,K$
5、似然函数

L (θ) = \prod i = 1 m \prod k = 1 K p (c = k | x (i); θ) y (i) k = \prod i = 1 m \prod k = 1 K e x p ( θ T k x ( i ) ) y ( i ) k \sum k l = 1 e x p ( θ T l x ( i ) ) )

$L(\theta)=\prod_{i=1}^m\prod_{k=1}^Kp(c=k|x^{(i)};\theta)^{y_k^{(i)}} =\prod_{i=1}^m\prod_{k=1}^K\frac{exp(\theta_k^Tx^{(i)})^{y_k^{(i)}}}{\sum_{l=1}^kexp(\theta_l^Tx^{(i)}))}$
6、对数似然

J m (θ) = l n L (θ) = \sum i = 1 m \sum k = 1 K (y (i) k θ T k x (i) - l n \sum l = 1 K e x p (θ T l x (i)))

$J_m(\theta)=lnL(\theta) = \sum_{i=1}^m\sum_{k=1}^K\left(y_k^{(i)}\theta_k^Tx^{(i)}-ln\sum_{l=1}^Kexp(\theta_l^Tx^{(i)})\right)$

J (θ) = \sum k = 1 K y k (θ T k x - l n \sum l = 1 K e x p (θ T l x))

$J(\theta) = \sum_{k=1}^Ky_k\left(\theta_k^Tx-ln\sum_{l=1}^Kexp(\theta_l^Tx)\right)$

7、随机梯度

\partial J ( θ ) \partial θ k = (y k - p (y k | x; θ)) x

$\frac{\partial J(\theta)}{\partial \theta_k} = (y_k-p(y_k|x;\theta))x$

3 信息熵

3.1 定义

1、原则：
若事件发生的概率小，该事件信息量大。
如果两个时间X和Y相互独立，即 $p(xy)=p(x)p(y)$ ，假定X和Y的信息量分别为 $h(X)$ 和 $h(Y)$ ，则二者同时发生的信息量 $h(XY)=h(X)+h(Y)$
2、定义事件X发生的信息量: $h(x) = -log_2x$