透彻理解逻辑回归(数学推导+python实现+sklearn相关包使用)

最新推荐文章于 2024-08-05 17:02:14 发布

Alanaker

最新推荐文章于 2024-08-05 17:02:14 发布

阅读量3.5k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_30219017/article/details/79558026

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

逻辑回归(数学推导+python实现+sklearn相关包使用)

1. 原理讲解及数学公式推导

逻辑回归(logistic regression)也叫做对数几率回归, 其实它是一种分类方法
在上一章，我们介绍了最基本的线性回归，那么如何进行分类任务呢?
注意上一章讲过的广义线性模型(generalized linear regression), 只要找到一个单调可微函数, 接近单位阶跃函数，但是要连续，可以把预测的回归值和输出标记 $y \ \epsilon \{0, 1\}$ 联系起来(二分类任务中)
我们只能寻找单位阶跃函数的替代函数(surrogate function), \ 接下来让我们请出Sigmoid函数中的代表: logistic function(逻辑回归函数或对数几率函数) :

g (z) = 1 1 + e - z

$g(z) = \frac{1}{1+e^{-z}}$
函数图像如下:

图1 Logistic function
注: Sigmoid函数即形似S型的一类函数，logistic function是其最典型的代表
将此函数代入广义线性模型，得到的线性模型如下:

ϕ (z) = 1 1 + e - ( θ T x x + b )

$\phi(z) = \frac{1}{1 + e^{-(\boldsymbol\theta^T \pmb{x}+b) } }$

y y $y$ 可以被看成类后验概率

p (y = 1 | x x)

$p(y=1 \ | \ \pmb{x})$ 即被当作正例的概率, 很自然地让

y>=0.5 y >= 0.5 $y>=0.5$ 的归为正例，

y<0.5 y < 0.5 $y<0.5$ 则归为反例

代价函数

我们同样使用均方误差即误差的平方和来替代:

J (θ θ) = \sum i = 1 m (ϕ (z (i)) - y (i)) 2, z (i) = θ θ T x (i) x (i) + b

$J(\pmb{\theta}) = \sum_{i=1}^m(\phi(z^{(i)}) - y^{(i)})^2 \ \ \ , z^{(i)} = \pmb{\theta}^T\pmb{x^{(i)}} + b$
但是如果我们将

ϕ(z)=11+e−(θTxx+b) ϕ ( z ) = 1 1 + e − ( θ T x x + b ) $\phi(z) = \frac{1}{1 + e^{-(\boldsymbol\theta^T \pmb{x}+b) } }$ 代入上式，会发现代价函数并不是个凸函数，这样不利于进行最优化求解。
因为

ϕ(z) ϕ ( z ) $\phi(z)$ 可以看做正例的后验估计，那么可以得到:

p (y = 1 | x; θ x; θ) = ϕ (z) = ϕ (θ T x θ T x + b)

$p(y=1 |\ \pmb{x;\ \theta}) = \phi(z) = \phi(\pmb{\theta^Tx} + b)$

p (y = 0 | x; θ x; θ) = 1 - ϕ (z) = 1 - ϕ (θ T x θ T x + b)

$p(y=0 |\ \pmb{x;\ \theta}) = 1 - \phi(z) = 1 - \phi(\pmb{\theta^Tx} + b)$
这两个式子可以结合起来变为一般形式:

p (y | x; θ x; θ) = ϕ (z) y (1 - ϕ (z)) 1 - y

$p(y|\ \pmb{x;\ \theta}) = \phi(z)^y(1-\phi(z))^{1-y}$
我们通过给定的数据集进行 极大似然法(maximum likelihood method)估计参数

θθ θ θ $\pmb\theta$ :

L (θ θ) = \prod i = 1 m p (y (i) | x x (i); θ θ) = \prod i = 1 m ϕ (z (i)) y (i) (1 - ϕ (z (i))) 1 - y (i) (1) (2)

$\begin{align} L(\pmb\theta) &= \prod_{i=1}^mp(y^{(i)}|\ \pmb{x}^{(i)}; \pmb{\theta}) \\ &= \prod_{i=1}^m\phi(z^{(i)})^{y^{(i)}}(1-\phi(z^{(i)}))^{1-y^{(i)}} \end{align}$
为了方便计算，我们在两边同时取对数，使用 对数似然(log likelihood):

l (θ θ) = l n L (θ θ) = \sum i = 1 m [y (i) l n (ϕ (z (i))) + (1 - y (i)) l n (1 - ϕ (z (i)))]

$l(\pmb\theta) = lnL(\pmb\theta) = \sum_{i=1}^m[y^{(i)}ln(\phi(z^{(i)})) + (1-y^{(i)})ln(1 - \phi(z^{(i)}))]$
现在思路清晰了，我们的目标就是要使它最大，那么代价函数就取个负号吧

J (θ θ) = - l (θ θ) = \sum i = 1 m [- y (i) l n (ϕ (z (i))) - (1 - y (i)) l n (1 - ϕ (z (i)))]

$J(\pmb\theta) = -l(\pmb\theta) = \sum_{i=1}^m[-y^{(i)}ln(\phi(z^{(i)})) - (1-y^{(i)})ln(1 - \phi(z^{(i)}))]$

其实等同于:

J (θ θ) = {- \sum m i = 1 l n (ϕ (z (i))) - \sum m i = 1 l n (1 - ϕ (z (i))), y (i) = 1, y (i) = 0

$J(\pmb\theta) = \begin{cases} -\sum_{i=1}^mln(\phi(z^{(i)})) & ,\ y^{(i)} = 1 \\ -\sum_{i=1}^mln(1 - \phi(z^{(i)})) & ,\ y^{(i)} = 0 \end{cases}$
该函数第一部分在0时最大，1时最小取0，单调递减，即说明偏离1代价越来越大
第二部分越偏离0越大

最优化: 梯度下降

这一章我们来探讨为什么沿梯度反方向下降最快，根据泰勒展开，当 $\pmb{\delta}$ 取无穷小, 我们有:
(注: 以下 $\pmb{x}$ 和 $\pmb{\delta}$ 都是向量):

f (x + δ x + δ) - f (x x) \approx f' (x x) \cdot δ δ

$f(\pmb{x+\delta}) - f(\pmb{x}) \approx f'(\pmb{x}) \cdot \pmb{\delta}$

f' (x x) \cdot δ δ = ∥ f' (x x) ∥ \cdot ∥ δ δ ∥ \cdot c o s θ

$f'(\pmb{x}) \cdot \pmb{\delta} = \left \| f'(\pmb{x}) \right \| \cdot \left \| \pmb\delta \right \| \cdot cos\theta$
则很明显，当

θ=π θ = π $\theta = \pi$ 时，即沿

f′(xx) f ′ ( x x ) $f'(\pmb{x})$ 的负方向时下降是最快的
接下来让我们先对

logistic l o g i s t i c $logistic$ 函数求导:

g (z) = (1 1 + e - z)' = - 1 ( 1 + e - z ) 2 \cdot - e - z = e - z ( 1 + e - z ) 2

$g(z) = (\frac{1}{1 + e^{-z}})' = -\frac{1}{(1 + e^{-z})^2} \ \cdot -e^{-z} = \frac{e^{-z}}{(1+e^{-z})^2}$
发现特别有意思的一点:

g' (z) = g (z) (1 - g (z))

$g'(z) = g(z)(1-g(z))$
知道了这个有用的性质，让我们来手推梯度下降公式中求偏导部分吧:

\partial J ( θ θ ) \partial θ θ j = \partial \sum m i = 1 [ - y ( i ) l n ( ϕ ( z ( i ) ) ) - ( 1 - y ( i ) ) l n ( 1 - ϕ ( z ( i ) ) ) ] \partial θ θ j = \sum i = 1 m [- y ( i ) ϕ ( z ( i ) ) + ( 1 - y ( i ) ) 1 - ϕ ( z ( i ) )] \cdot \partial ϕ ( z ( i ) ) \partial θ θ j = \sum i = 1 m [- y ( i ) ϕ ( z ( i ) ) + ( 1 - y ( i ) ) 1 - ϕ ( z ( i ) )] \cdot ϕ (z (i)) \cdot (1 - ϕ (z (i))) \cdot \partial z ( i ) \partial θ θ j = \sum i = 1 m [- (1 - ϕ (z (i))) y (i) + ϕ (z (i)) (1 - y (i))] x x (i) j = \sum i = 1 m (ϕ (z (i)) - y (i)) x x (i) j (3) (4) (5) (6) (7)

$\begin{align} \frac{ \partial J(\pmb{\theta})}{\partial\pmb\theta_j} &= \frac{\partial\sum_{i=1}^m[-y^{(i)}ln(\phi(z^{(i)})) - (1-y^{(i)})ln(1 - \phi(z^{(i)}))]}{\partial \pmb\theta_j} \\ &= \sum_{i=1}^m[-\frac{y^{(i)}}{\phi(z^{(i)})} + \frac{(1-y^{(i)})}{1 - \phi(z^{(i)})}] \cdot \frac{\partial\phi(z^{(i)})}{\partial\pmb\theta_j} \\ &= \sum_{i=1}^m[-\frac{y^{(i)}}{\phi(z^{(i)})} + \frac{(1-y^{(i)})}{1 - \phi(z^{(i)})}] \cdot \phi(z^{(i)}) \cdot (1-\phi(z^{(i)})) \cdot \frac{\partial z^{(i)}}{\partial\pmb\theta_j} \\ &= \sum_{i=1}^m[-(1-\phi(z^{(i)}))y^{(i)} + \phi(z^{(i)})(1-y^{(i)})]\pmb{x}_j^{(i)} \\ &= \sum_{i=1}^m(\phi(z^{(i)}) - y^{(i)})\pmb{x}_j^{(i)} \end{align}$

因此，梯度下降:
until convergence:{
$\ \ \ \ \pmb\theta_j = \pmb\theta_j - \alpha \cdot \sum_{i=1}^m(\phi(z^{(i)}) - y^{(i)})\pmb{x}_j^{(i)}$
}
不过，要自己实现代码的话，一般来说代价函数要除以m(线性回归里除以2m是为了方便求导后消去2), 然后加上正则化项

正则化

为了解决过拟合，在逻辑回归里，有以下两种解决方案:
1. 减少特征量
2. 在现有特征情况下，减小 $\theta_j$
所以我们的代价函数就变成这种:

J (θ θ) = 1 m \sum i = 1 m [- y (i) l n (ϕ (z (i))) - (1 - y (i)) l n (1 - ϕ (z (i)))] + λ 2 m \sum j = 1 n θ θ 2 j

$J(\pmb\theta) = \frac{1}{m}\sum_{i=1}^m[-y^{(i)}ln(\phi(z^{(i)})) - (1-y^{(i)})ln(1 - \phi(z^{(i)}))] + \frac{\lambda}{2m} \sum_{j=1}^n\pmb\theta_j^2$
注意两点:
1.正则化是从

θ1 θ 1 $\theta_1$ 开始的，因为X第一列全是人为加上的常数项1，没有必要进行正则化
2.其中

λ λ $\lambda$ 如果过大，会导致欠拟合；而

λ λ $\lambda$ 过小，会导致过拟合

更新后的梯度下降:
until convergence:{
$\ \ \ \ \pmb\theta_0 = \pmb\theta_0 - \frac{\alpha}{m} \cdot \sum_{i=1}^m(\phi(z^{(i)}) - y^{(i)})\pmb{x}_0^{(i)}$

$\ \ \ \ \pmb\theta_j = \pmb\theta_j - \frac{\alpha}{m} \cdot [\sum_{i=1}^m(\phi(z^{(i)}) - y^{(i)})\pmb{x}_j^{(i)} +\lambda\pmb\theta_j]$
}

推广到线代形式

转化为我们写代码需要的线代公式，代价函数:

J (θ θ) = 1 m ((Y - 1) T l n (1 - ϕ (X θ θ)) - Y T l n (ϕ (X θ θ)) + λ 2 θ θ T θ θ)

$J(\pmb\theta) = \frac{1}{m}((Y-1)^Tln(1-\phi(X\pmb\theta)) - Y^Tln(\phi(X\pmb\theta)) + \frac{\lambda}{2}\pmb\theta^T\pmb\theta)$
梯度:
注意结果是一个(n+1, 1)的向量

1 m \cdot [X T (ϕ (X θ θ) - Y) + λ θ θ]

$\frac{1}{m} \cdot [X^T (\phi(X\pmb\theta)- Y) + \lambda\pmb\theta]$
梯度下降:
until convergence{

θ θ = θ θ - α m \cdot [X T (ϕ (X θ θ) - Y) + λ θ θ]

$\pmb\theta = \pmb\theta - \frac{\alpha}{m} \cdot [X^T (\phi(X\pmb\theta)- Y) + \lambda\pmb\theta]$
}

2.python实现

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import math
import scipy

"""
    注意接收的X是个向量
"""
def sigmoid(X):
    return 1 / (1 + np.exp(-X))

"""
    代价函数
    theta: (n+1, 1) 参数向量
    X: (m, n+1) 矩阵
    y: (m, 1) 结果向量
    lamb: 标量，控制正则化程度
"""
def get_cost(theta, X, y, lamb):
    m = len(y)
    phi = sigmoid(np.dot(X, theta)) # 先计算phi(z)

    theta_add = theta.copy()
    theta_add[0] = 0 # theta 0 不需要加正则化，所以计算代价时让theta_0 = 0

    reg = np.dot(np.transpose(theta_add), theta_add) # 正则化项*2/lambda

    return (np.dot(np.transpose(y-1), np.log(1 - phi)) - np.dot(np.transpose(y), np.log(phi)) + (lamb / 2 * reg)) / m

"""
    计算梯度
"""
def get_gradient(theta, X, y, lamb):
    m = len(y)
    phi = sigmoid(np.dot(X, theta))

    theta_add = theta.copy()
    theta[0] = 0

    return (np.dot(np.transpose(X), (phi-y)) + lamb*theta_add) / m