逻辑回归

最新推荐文章于 2022-04-14 22:20:10 发布

行路南

最新推荐文章于 2022-04-14 22:20:10 发布

阅读量783

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u010414589/article/details/49299715

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

逻辑回归

内容分三块，第一部分逻辑回归模型，第二部分是策略，第三部分是学习算法。

1. 构造分类函数

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数）。

函数形式为：

g (z) = e z 1 + e z

$g(z)=\frac{e^z}{1+e^z}$
g(z)函数可以将自变量从

(−∞,∞) $(-\infty,\infty)$ 映射到

(0,1) $(0,1)$ 。图形如下所示：
这里写图片描述

且g(z)求导有如下性质：

\nabla z g (z) = \nabla z e z 1 + e z = e z ( 1 + e z ) - e z \cdot e z ( 1 + e z ) 2 = e z ( 1 + e z ) 2 = e z 1 + e z (1 - e z 1 + e z) = g (z) (1 - g (z))

$\begin{align} \nabla_zg(z)&=\nabla_z\frac{e^z}{1+e^z}\\ &=\frac{e^z(1+e^z)-e^z\cdot e^z}{(1+e^z)^2}\\ &=\frac{e^z}{(1+e^z)^2}\\ &=\frac{e^z}{1+e^z}(1-\frac{e^z}{1+e^z})\\ &=g(z)(1-g(z)) \end{align}$
又对于特征的线性组合，有:

w0+w1∗x1+w2∗x2+⋯+wn∗xn=xTw $w_0+w_1*x_1+w_2*x_2+\cdots+w_n*x_n=x^Tw$
则构造分类函数：

h w (x) = g (x T w) = e x T w 1 + e x T w

$h_w(x)=g(x^Tw)=\frac{e^{x^Tw}}{1+e^{x^Tw}}$
所以这个分类函数是希望从特征中学习到一个0/1分类模型，这个分类模型是将特征的线性组合作为自变量，由于自变量的取值范围是

(−∞,∞) $(-\infty,\infty)$ ,于是用logistic函数将其映射到

(0,1) $(0,1)$ 上，映射后的值被认为是属于

y=1 $y=1$ 的概率。表达式如下所示：

P (Y = 1 | x (i); w) = h w (x (i)) P (Y = 0 | x (i); w) = 1 - h w (x (i))

$P(Y=1|x^{(i)};w)=h_w(x^{(i)})\qquad P(Y=0|x^{(i)};w)=1-h_w(x^{(i)})$

2. 构造损失函数

损失函数可以应用极大似然估计法得到。
对训练样本集来说，一个样本的概率为：

P (Y = y i | x (i); w)

$P(Y=y_i|x^{(i)};w)$
似然函数为

L (w) = \prod i = 1 m P (Y = y i | x (i); w) = \prod i = 1 m [h w (x (i))] y i [1 - h w (x (i))] 1 - y i

$\begin{align} L(w)&=\prod_{i=1}^mP(Y=y_i|x^{(i)};w)\\ &=\prod_{i=1}^m[h_w(x^{(i)})]^{y_i}[1-h_w(x^{(i)})]^{1-y_i} \end{align}$
对数似然函数为

l (w) = l o g \prod i = 1 m [h w (x (i))] y i [1 - h w (x (i))] 1 - y i = \sum i = 1 m y i l o g (h w (x (i))) + (1 - y i) l o g (1 - h w (x (i)))

$\begin{align} l(w)&=log\prod_{i=1}^m[h_w(x^{(i)})]^{y_i}[1-h_w(x^{(i)})]^{1-y_i}\\ &=\sum_{i=1}^my_ilog(h_w(x^{(i)}))+(1-y_i)log(1-h_w(x^{(i)}))\\ \end{align}$
我们希望求得似然函数最大，即每个训练数据集样本概率乘积最大，也等价于对数似然函数最大。接下来我们需要对

l(w,b) $l(w,b)$ 求极大值，得到w。
逻辑回归的学习策略是选择能使得对数似然函数最大的参数w。

3. 学习算法

到这里，问题已经变成了一个求对数似然函数最大的最优化问题，选择一种优化算法即可。

gradient descent method(梯度下降法)
Conjugate gradient method(共轭梯度法)
Quasi-Newton method(拟牛顿法)
BFGS method
L-BFGS(Limited-memory BFGS

因为是求似然函数最大，这里采取梯度上升算法（与梯度下降算法同理，一个是负梯度方向时下降最快的方向，一个是正梯度方向是上升最快的方向）。

\nabla w j = \sum i = 1 m [y i 1 h w ( x ( i ) ) + (1 - y i) - 1 1 - h w ( x ( i ) )] h w (x (i)) (1 - h w (x (i))) x (i) j = \sum i = 1 m [y i (1 - h w (x (i))) - (1 - y i) h w (x (i))] x (i) j = \sum i = 1 N (y i - h w (x (i))) x (i) j

$\begin{align} \nabla_{w_j} &= \sum_{i=1}^m[y_i\frac{1}{h_w(x^{(i)})}+(1-y_i)\frac{-1}{1-h_w(x^{(i)})}]h_w(x^{(i)}) (1-h_w(x^{(i)}))x_j^{(i)}\\ &= \sum_{i=1}^m[y_i(1-h_w(x^{(i)}))-(1-y_i)h_w(x^{(i)})]x_j^{(i)}\\ &=\sum_{i=1}^N(y_i-h_w(x^{(i)}))x_j^{(i)} \end{align}$
即对于每一次迭代，有如下更新：

w j : = w j + α \nabla w j = w j - α \sum i = 1 m (h w (x (i)) - y i) x (i) j (j = 0, 1, 2 \dots n)

$w_j:=w_j+\alpha\nabla_{w_j}=w_j-\alpha\sum_{i=1}^m(h_w(x^{(i)})-y_i)x_j^{(i)}\qquad(j=0,1,2\cdots n)$

4. 向量化

向量化的目的是方便编程，减少for循环，提高运算效率。已知训练数据集x,y和权重w可表示为：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) x (2) ⋮ x (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 ⋮ x (m) 0 x (1) 1 x (2) 1 ⋮ x (m) 1 \dots \dots ⋱ \dots x (1) n x (2) n ⋮ x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ w 0 w 1 ⋮ w n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$x=\left[ \begin{array}{cc} x^{(1)}\\ x^{(2)}\\ \vdots\\ x^{(m)}\\ \end{array} \right]=\left[ \begin{array}{cc} x_0^{(1)}&x_1^{(1)}&\cdots&x_n^{(1)}\\ x_0^{(2)}&x_1^{(2)}&\cdots&x_n^{(2)}\\ \vdots&\vdots&\ddots&\vdots\\ x_0^{(m)}&x_1^{(m)}&\cdots&x_n^{(m)}\\ \end{array} \right] \qquad y=\left[ \begin{array}{cc} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)}\\ \end{array} \right]\qquad w=\left[ \begin{array}{cc} w_0\\ w_1\\ \vdots\\ w_n\\ \end{array} \right]$

A = x \cdot w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 ⋮ x (m) 0 x (1) 1 x (2) 1 ⋮ x (m) 1 \dots \dots ⋱ \dots x (1) n x (2) n ⋮ x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \cdot ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ w 0 w 1 ⋮ w n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 w 0 + x (1) 1 w 1 + \dots + x (1) n w n x (2) 0 w 0 + x (2) 1 w 1 + \dots + x (2) n w n ⋮ x (m) 0 w 0 + x (m) 1 w 1 + \dots + x (m) n w n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ A 1 A 2 ⋮ A m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$A=x\cdot w=\left[ \begin{array}{cc} x_0^{(1)}&x_1^{(1)}&\cdots&x_n^{(1)}\\ x_0^{(2)}&x_1^{(2)}&\cdots&x_n^{(2)}\\ \vdots&\vdots&\ddots&\vdots\\ x_0^{(m)}&x_1^{(m)}&\cdots&x_n^{(m)}\\ \end{array} \right] \cdot \left[ \begin{array}{cc} w_0\\ w_1\\ \vdots\\ w_n\\ \end{array} \right]=\left[ \begin{array}{cc} x_0^{(1)}w_0+x_1^{(1)}w_1+\cdots+x_n^{(1)}w_n\\ x_0^{(2)}w_0+x_1^{(2)}w_1+\cdots+x_n^{(2)}w_n\\ \vdots\\ x_0^{(m)}w_0+x_1^{(m)}w_1+\cdots+x_n^{(m)}w_n\\ \end{array} \right] =\left[ \begin{array}{cc} A_1\\ A_2\\ \vdots\\ A_m\\ \end{array} \right]$

E = h w (x) - y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ g (A 1) - y 1 g (A 2) - y 2 ⋮ g (A m) - y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ E 1 E 2 ⋮ E m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$E=h_w(x)-y=\left[ \begin{array}{cc} g(A_1)-y_1\\ g(A_2)-y_2\\ \vdots\\ g(A_m)-y_m\\ \end{array} \right] =\left[ \begin{array}{cc} E_1\\ E_2\\ \vdots\\ E_m\\ \end{array} \right]$
则根据之前推导的更新公式，可以转化为：

w j : = w j + α \nabla w j : = w j - α \sum i = 1 m (h w (x (i)) - y i) x (i) j : = w j - α \sum i = 1 m E i x (i) j

$\begin{align} w_j&:=w_j+\alpha\nabla_{w_j}\\ &:=w_j-\alpha\sum_{i=1}^m(h_w(x^{(i)})-y_i)x_j^{(i)}\\ &:=w_j-\alpha\sum_{i=1}^mE_ix_j^{(i)}\\ \end{align}$
即有：

w : = w - α x T E

$w:=w-\alpha x^TE$
整个计算步骤是：

输入x,y; 初始化 $w$
进行n_iter 次迭代：
- 求出 $A=x\cdot w$
- 求出 $E=h_w(x)-y$
- 求出 $w=w-\alpha x^TE$
- 判断此时的w,是否满足精度要求，满足即跳出
4. 正则化

由于我们是在训练数据集上去求得一个分类函数，使得在训练数据集上输入每一个样本在分类函数上得到的预测值能与真实值接近或一致，在本文中是通过求对数似然函数最大化来实现的，但我们过分追求在训练数据集上的一致性往往会导致过拟合（在训练数据集上非常吻合，而在未知数据集上效果较差），所以我们需要通过一些办法降低过拟合。
- 减少特征数量
  - 缺点是丢掉了一些潜藏信息
  - 人工选择，比如在本例中有 $P(Y=yi|x(i);w)$ ，观察加入一个特征之后样本概率的变化
  - deeplearning 自动选择特征
- 正则化
  - 不减少特征，而是通过降低特征的权值 $w_i$ ，适用于特征较多的情况
  - 正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。
在本文中，也可以构造损失函数，求对数似然函数最大化可以转化为求最小J(w)，即：

J(w)=−l(w)
加入L1范数，L2范数分别为：

J(w)=−l(w)+λ∑i=0nwiJ(w)=−l(w)+λ∑i=0nw2i

λ>0 为正则化参数，它的设置有以下性质：
- 当值很大时，对模型的复杂度惩罚大。这样它会表现出很好的泛化能力，但可能不会过分拟合数据
- 当值很小时，对模型的复杂度惩罚小。这样它比较注重对训练数据的拟合，但可能会有较差的泛化能力
则正则化之后 $w$ 的更新公式如下：
wj:=wj−α∑i=1m(hw(x(i))−yi)x(i)j−2αλwj(j=0,1,2⋯n)