逻辑回归(Logistic Regression)

最新推荐文章于 2022-07-19 12:15:21 发布

crystal_river

最新推荐文章于 2022-07-19 12:15:21 发布

阅读量704

点赞数

分类专栏：机器学习文章标签： Logistic regression 机器学习预测分类

本文链接：https://blog.csdn.net/dlzojvbel/article/details/49160319

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

最近因为要做一个预测性的工程从而学到了逻辑回归（Logistic Regression），看了很多的资料以及一些论坛上的博文，发现了很多不错的资料，也发现了一些不足甚至是错误的地方。因此，在这里我重新从自己的视角以及理解写一下我对逻辑回归的认识，纠正一些科普资料中的错误，再加上自己的学习过程。

如果有错误或者不足的地方欢迎看到的人批评指正，相互交流。

原理及用途

回归从表现出形式上讲就是给定一些点集，找出一条曲线去拟合。从数学公式的角度讲，就是在已经大概知道函数形式的时候，用给出的训练样本确定函数中未知的参数。所以在进行回归时，根据已有经验找到一个合适形式的预测函数非常重要。假如说预测函数的分布是非线性的，而我们选择了一个线性函数来预测，就会造成较大的偏差。其实逻辑回归就是在线性回归的基础上加了一个逻辑函数，但是这个逻辑函数非常重要，造就了逻辑回归在分类问题中的重要地位。

逻辑回归经常应用于分类问题，特别是“二分类”。就是预测结果只有两种“0”或者“1”。具体的用途有：

分析行为：根据某人的行为习惯分析用户某个行为会不会发生。
判断预测：根据建立的模型，分析在某些自变量集合下，是否会发生某种疾病。

实现步骤

首先是找到一个合适形式的预测函数，称为 $h_\theta$ 函数，即hypothesis。
构造损失函数，主要分为(1)0-1损失函数，称为Cost函数，(2)平方损失函数，称为 $j(\theta)$ 。
$j(\theta)$ 函数的值越小表示预测的函数越准确，所以用logistic regression的方法求出 $j(\theta)$ 取最小值时函数的参数 $\theta$ 。

具体实现

构造预测函数

由于是“二分类”问题，所以这里要用到Logistic函数，也叫做Sigmoid函数，函数的形式为

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$
Sigmoid函数的推导过程是：令

y=logp1−p $y=log\frac{p}{1-p}$

y = l o g (p / (1 - p)) \Leftrightarrow e y = p / (1 - p) \Leftrightarrow e y = p + e y p \Leftrightarrow p = e y 1 + e y \Leftrightarrow p = 1 1 + e - y

$\begin{eqnarray} &&y=log(p/(1-p))\\ &&\Leftrightarrow e^y=p/(1-p)\\ &&\Leftrightarrow e^y=p+e^yp\\ &&\Leftrightarrow p=\frac{e^y}{1+e^y}\\ &&\Leftrightarrow p=\frac{1}{1+e^{-y}} \end{eqnarray}$
该函数对应的图像是：这里写图片描述

从图像可以看出p在[0,1]之间，在解决二分类问题的时候可以设定一个阈值，当p>阈值的时候分为类别A，当P<阈值的时候分为类别B。

推理过程

下面分析一下可能会遇到的问题，然后分析预测函数h的形式：
线性边界：这里写图片描述
首先以线性边界的情况来讨论，线性边界的边界形式为：

θ 0 + θ 1 x 1 + \dots + θ n x n = \sum i = 0 n θ i x i = θ T x

$\theta_0+\theta_{1}x_1+\dots+\theta_{n}x_n=\sum_{i=0}^{n}\theta_{i}x_i=\theta^{T}x$
构造预测函数

hθ $h_{\theta}$ :

h θ = g (θ T x) = 1 1 + e - θ T x

$h_{\theta}=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$

hθ $h_\theta$ 表示预测结果取1的概率，那么预测结果取0的概率可以表示为

1−hθ $1-h_\theta$ ：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$\begin{eqnarray} &&P(y=1|x;\theta)=h_\theta(x)\\ &&P(y=0|x;\theta)=1-h_\theta(x) \end{eqnarray}$
该式还可以写成

P(y|x;θ)=(hθ(x))y(1−hθ(x))1−y $P(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$ 。
使用最大似然估计：

L (θ) = \prod i = 1 m (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{eqnarray} L(\theta)=\prod_{i=1}^{m}(h_\theta(x^{(i)}))^{y^{(i)}}(1-h_\theta(x^{(i)}))^{1-y^{(i)}} \end{eqnarray}$
两边同时取对数：

l (θ) = l o g L (θ) = \sum i = 1 m (y (i) h θ (x (i)) + (1 - y (i)) (1 - h θ (x (i))))

$\begin{eqnarray} l(\theta)=logL(\theta)=\sum_{i=1}^m(y^{(i)}h_\theta(x^{(i)})+(1-y^{(i)})(1-h_\theta(x^{(i)}))) \end{eqnarray}$
当

l(θ) $l(\theta)$ 取得最大值时的

θ $\theta$ 就是最佳的

θ $\theta$ 的取值。
根据上式构造0-1损失函数和平方损失函数：

C o s t (h θ (x), y) = {- l o g h θ (x) - l o g (1 - h θ (x)) y = 1 y = 0

$\begin{eqnarray} Cost(h_\theta(x),y)=\begin{cases}-logh_{\theta}(x) & y=1 \\ -log(1-h_\theta(x)) & y=0 \end{cases} \end{eqnarray}$

J (θ) = 1 m \sum i = 1 m (C o s t (h θ (x (i))), y (i)) = - 1 m \sum i = 1 m (y (i) l o g h θ (x (i)) + (1 - y (i)) (1 - l o g (1 - h θ (x (i))))

$\begin{eqnarray} J(\theta)=\frac{1}{m}\sum_{i=1}^m(Cost(h_\theta(x^{(i)})),y^{(i)})=-\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})(1-log(1-h_\theta(x^{(i)}))) \end{eqnarray}$

J(θ)=−1ml(θ) $J(\theta)=-\frac{1}{m}l(\theta)$ ，所以求

l(θ) $l(\theta)$ 的最大值就是求

J(θ) $J(\theta)$ 的最小值。
在这里使用梯度下降的方法求

J(θ) $J(\theta)$ 的最小值，关于梯度下降的介绍见，梯度下降是一个不断地迭代求最小值的方法。简单的形容就是：

W a n t m i n θ J (θ) R e p e a t {θ j : = θ j - α \partial \partial θ j j (θ)}

$\begin{eqnarray} && Want\quad min_\theta J(\theta)\\ && Repeat\{\\ && \theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j}j(\theta) \} \end{eqnarray}$
其中

θj:=θj−α∂∂θjJ(θ) $\theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta)$ 就是梯度下降法的公式，

θj: $\theta_j:$ 是

θj $\theta_j$ 经过迭代后的下一次状态。整个迭代过程终止的条件是

∂∂θjJ(θ) $\frac{\partial}{\partial \theta_j}J(\theta)$ 的结果趋近于0。

化简 $\frac{\partial}{\partial \theta_j}J(\theta)$ :

\partial \partial θ j J (θ) = - 1 m \sum i = 1 m [y (i) 1 h θ ( x ( i ) ) \partial \partial θ j h θ (x (i)) - (1 - y (i)) 1 1 - h θ ( x ( i ) ) \partial \partial θ j h θ (x (i))] = - 1 m \sum i = 1 m (y (i) 1 g ( θ T x ( i ) ) - (1 - y (i)) 1 1 - g ( θ T x ( i ) )) \partial \partial θ j g (θ T x (i)) = - 1 m \sum i = 1 m (y (i) 1 g ( θ T x ( i ) ) - (1 - y (i)) 1 1 - g ( θ T x ( i ) )) g (θ T x (i)) (1 - g (θ T x (i))) \partial \partial θ j (θ T x (i)) = - 1 m \sum i = 1 m y ( i ) ( 1 - g ( θ T x ( i ) ) ) - ( 1 - y ( i ) ) g ( θ T x ( i ) ) g ( θ T x ( i ) ) ( 1 - g ( θ T x ( i ) ) ) g (θ T x (i)) (1 - g (θ T x (i))) \partial \partial θ j θ T x (i) (j) = - 1 m \sum i = 1 m (y (i) - g (θ T x (i))) x (i) (j) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) (j)

$\begin{eqnarray} \frac{\partial}{\partial \theta_j}J(\theta) && =-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\frac{1}{h_\theta(x^{(i)})}\frac{\partial}{\partial \theta_j}h_\theta(x^{(i)})-(1-y^{(i)})\frac{1}{1-h_\theta(x^{(i)})}\frac{\partial}{\partial \theta_j}h_\theta(x^{(i)})] \\ &&=-\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}\frac{1}{g(\theta^{T}x^{(i)})}-(1-y^{(i)})\frac{1}{1-g(\theta^{T}x^{(i)})})\frac{\partial}{\partial \theta_j}g(\theta^{T}x^{(i)}) \\ &&=-\frac{1}{m}\sum_{i=1}^{m}(y^{(i)}\frac{1}{g(\theta^{T}x^{(i)})}-(1-y^{(i)})\frac{1}{1-g(\theta^{T}x^{(i)})})g(\theta^{T}x^{(i)})(1-g(\theta^{T}x^{(i)}))\frac{\partial}{\partial \theta_j}(\theta^{T}x^{(i)}) \\ &&=-\frac{1}{m}\sum_{i=1}^{m}\frac{y^{(i)}(1-g(\theta^{T}x^{(i)}))-(1-y^{(i)})g(\theta^{T}x^{(i)})}{ g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)}))} g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)})) \frac{\partial}{\partial \theta_j}\theta^Tx_{(j)}^{(i)} \\ &&=-\frac{1}{m}\sum_{i=1}^m(y^{(i)}-g(\theta^Tx^{(i)}))x_{(j)}^{(i)} \\ &&=\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(j)}^{(i)} \end{eqnarray}$

上述过程都属于微积分中求偏导的过程，不熟悉的可以再看下微积分的知识。
求偏导过程中要用到的知识：

h (x) \partial \partial x h (x) = 1 1 + e g ( x ) = 1 ( 1 + e g ( x ) ) 2 e g (x) \partial \partial x g (x) = h (x) (1 - h (x)) \partial \partial x g (x)

$\begin{eqnarray} h(x)&&=\frac{1}{1+e^{g(x)}} \\ \frac{\partial}{\partial x} h(x)&& =\frac{1}{(1+e^{g(x)})^2}e^{g(x)}\frac{\partial}{\partial x}g(x) \\ && =h(x)(1-h(x))\frac{\partial}{\partial x}g(x) \end{eqnarray}$

因为 $\alpha$ 是一个常数，所以 $\alpha \frac{1}{m}$ 仍然是一个常数，所以式中的 $\frac{1}{m}$ 可以省略。所以 $\theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j}J(\theta)$ 可以化简为：

θ j : = θ j - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) (j); (j = 0, 1, \dots, n)

$\begin{eqnarray} \theta_j:=\theta_j-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(j)}^{(i)}; (j=0,1,\dots,n) \end{eqnarray}$
上式就是梯度下降法求解的最终公式：

W a n t m i n θ J (θ) R e p e a t {θ j : = θ j - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) (j))}

$\begin{eqnarray} && Want\quad min_\theta J(\theta)\\ && Repeat\{\\ && \theta_j:=\theta_j-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(j)}^{(i)}) \} \end{eqnarray}$
对于训练样本：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 ⋮ x (m) 0 x (1) 1 x (2) 1 ⋮ x (m) 1 \dots \dots ⋮ \dots x (1) n x (2) n ⋮ x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{equation} X=\left[ \begin{array}{cccc} x_{0}^{(1)} & x_{1}^{(1)} & \dots & x_{n}^{(1)} \\ x_{0}^{(2)} & x_1^{(2)} & \dots & x_{n}^{(2)} \\ \vdots & \vdots & \vdots & \vdots\\ x_{0}^{(m)} & x_{1}^{(m)} & \dots & x_{n}^{(m)} \end{array} \right], Y=\left[ \begin{array}{c} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{array} \right] \end{equation}$

可以求出 $\theta$ 的值：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ θ 0 = θ 0 - α \sum m i = 1 (h θ (x (i)) - y (i)) x (i) (0)) θ 1 = θ 1 - α \sum m i = 1 (h θ (x (i)) - y (i)) x (i) (1)) \dots \dots \dots \dots \dots \dots \dots \dots θ m = θ m - α \sum m i = 1 (h θ (x (i)) - y (i)) x (i) (m))

$\begin{cases} \theta_0=\theta_0-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(0)}^{(i)}) \\ \theta_1=\theta_1-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(1)}^{(i)}) \\ \dots \dots \dots \dots \dots \dots \dots \dots \\ \theta_m=\theta_m-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_{(m)}^{(i)}) \\ \end{cases}$

至此逻辑回归过程结束。

对于具体的训练样本数据，逻辑回归所起到的作用如表所示：

数据	分类	预测结果1	分类结果1	预测结果2	分类结果2
10	1	1	1	0.1	0
9	1	0.9	1	0.9	1
8	1	0.8	1	0.8	1
7	1	0.7	1	0.7	1
6	1	0.5	0	0.6	1
5	0	0.6	1	0.5	0
4	0	0.4	0	0.4	0
3	0	0.3	0	0.3	0
2	0	0.2	0	0.2	0
1	0	0.1	0	1	1

并且可以看出训练结果1的效果要好于训练结果2。

代码实现

import matplotlib.pyplot as plt
from numpy import *


def loadDataSet():
    dataMat = []; labelMat = []
    fr = open(r'C:\Users\crystal\Desktop\testSet-LR.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX):
    return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
    labelMat = mat(classLabels).transpose() #convert to NumPy matrix

    m,n = shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = ones((n,1))

    for k in range(maxCycles):              #heavy on matrix operations
        h = sigmoid(dataMatrix*weights)     #matrix mult
        error = (labelMat - h)              #vector subtraction
        weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
    return weights

def GetResult():
    dataMat,labelMat=loadDataSet()
    weights=gradAscent(dataMat,labelMat)
    print (weights)
    plotBestFit(weights)


def plotBestFit(weights):

    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] 
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)   
    y=(0.48*x+4.12414)/(0.616)
#     y = (-weights[0]-weights[1]*x)/weights[2]    
    ax.plot(x,y)
    plt.xlabel('X1'); plt.ylabel('X2');
    plt.show()    

if __name__=='__main__':
    GetResult()