数据挖掘算法（三）--logistic回归_由logistic回归系数反推数据-CSDN博客

本文链接：https://blog.csdn.net/hjxzb/article/details/78105749

数据挖掘算法学习笔记汇总
数据挖掘算法（一）–K近邻算法（KNN）
数据挖掘算法（二）–决策树
 数据挖掘算法（三）–logistic回归

在介绍logistic回归之前先复习几个基础知识点，有助于后面的理解。

基本数学知识点

1、对数似然函数

若总体X为离散型，其概率分布列为

P (X = x) = p (x, θ)

$P(X=x)=p(x,\theta)$ 其中

θ $\theta$ 为未知参数。设

(X1,X2,...,Xn) $(X_1,X_2,...,X_n)$ 是取自总体样本容量为n的样本，则

(X1,X2,...,Xn) $(X_1,X_2,...,X_n)$ 的联合概率分布率为

\prod i = 1 n p (x i, θ)

$\prod_{i=1}^{n}p(x_i, \theta)$
又设

(X1,X2,...,Xn) $(X_1,X_2,...,X_n)$ 的一组观测值为

(x1,x2,...,xn) $(x_1,x_2,...,x_n)$ ，易知样本

X1,X2,...,Xn $X_1,X_2,...,X_n$ 取到观测值

x1,x2,...,xn $x_1,x_2,...,x_n$ 的概率为

L (θ) = L (x 1, x 2, . . ., x n; θ) = \prod i = 1 n p (x i, θ)

$L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod_{i=1}^{n}p(x_i, \theta)$ 这一概率随

θ $\theta$ 的取值而变化，它是

θ $\theta$ 的函数，称

L(θ) $L(\theta)$ 为样本的似然函数。但是由于来连乘的函数处理起来比较麻烦，所以对

L(θ) $L(\theta)$ 取自然对数变成加法来处理要简单点。

l n L (θ) = \sum i = 1 n l n p (x i, θ)

$lnL(\theta)=\sum_{i=1}^{n}lnp(x_i, \theta)$

2、logistic函数

logistic函数或logistic曲线是常见的“S”形（sigmoid curve ，S形曲线），方程式如下：

f (x) = L 1 + e - k ( x - x 0 )

$f(x)=\frac{L}{1+e^{-k(x-x_0)}}$
其中

$e$ 自然对数
$x_0$ S形中点的x值
$L$ 曲线的最大值
$k$ 曲线的陡度

上图是 $L=1,k=1,x_0=0$ 时的图像
这里主要说明下这个函数的导数的性质，后面推导的时候会用到。
$f (x) = 1 1 + e - x = e x 1 + e x$ $f(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}}$
$d d x f (x) = e x ( 1 + e x ) - e x e x ( 1 + e x ) 2$ $\frac{d}{dx}f(x)=\frac{e^{x} (1+e^{x})-e^{x} e^{x}}{(1+e^{x})^2}$
$d d x f (x) = e x ( 1 + e x ) 2 = f (x) (1 - f (x))$ $\frac{d}{dx}f(x)=\frac{e^{x}}{(1+e^{x})^2}=f(x)(1-f(x))$

logistic回归数学推导

先看一个简单的例子：
这里写图片描述
我们将平面上的点分为两类，中间的红色线条为边界。
预测类别 $y=1$ 如果 $-3+x_1+x_2\geq0$ 预测类别 $y=0$ 如果 $-3+x_1+x_2 < 0$
此例子中

h θ (x) = g (θ 0 + θ 1 x 1 + θ 2 x 2)

$h_{\theta}(x)=g(\theta_0+\theta_1x_1+\theta_2x_2)$

对更多维的数据进行分类时，线性边界的情况，边界形式如下：

θ 1 x 1 + θ 2 x 2 + . . . + θ n x n = θ T x

$\theta_1x_1+\theta_2x_2+...+\theta_nx_n=\theta^Tx$
根据logistic回归可知预测函数为：

h θ (x (i) ） = g (θ T x i) = 1 1 + e - θ T x i

$h_{\theta}(x^{(i)}）=g(\theta^Tx^{i})=\frac{1}{1+e^{-\theta^Tx^{i}}}$

hθ(x(i) $h_{\theta}(x^{(i)}$ 函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P (y = 1 | x; θ) = h θ (x (i)

$P(y=1|x;\theta)=h_{\theta}(x^{(i)}$

P (y = 0 | x; θ) = 1 - h θ (x (i)

$P(y=0|x;\theta)=1-h_{\theta}(x^{(i)}$
合起来写则可以得到下式：

P (y | x ； θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$P(y|x；\theta)=(h_\theta(x))^{y}(1-h_\theta(x))^{1-y}$
取似然函数得到下式：

L (θ) = \prod i = 1 m P (y (i) | x (i), θ)

$L(\theta)=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)},\theta)$
求自然对数得到对数似然函数：

l (θ) = l n L (θ)

$l(\theta)=ln L(\theta)$

= \sum i = 1 m (y (i) l n h θ (x (i)) + (1 - y (i)) l n (1 - h θ (x (i))))

$=\sum_{i=1}^{m}(y^{(i)}ln h_{\theta}(x^{(i)})+(1-y^{(i)})ln (1-h_{\theta}(x^{(i)})))$
最大似然估计就是要求得使

l(θ) $l(\theta)$ 取最大值时的

θ $\theta$ ，利用梯度上升法求解，求得的

θ $\theta$ 就是要求的最佳参数。下面是利用梯度上升法求解过程。
求利用梯度上升法求解

l(θ) $l(\theta)$ 的最大值时，根据梯度上升法知道

θ $\theta$ 的更新公式如下：

θ j : = θ j + α \partial \partial θ j l (θ) (j = 0 . . . n)

$\theta_{j} := \theta_{j} + \alpha \frac {\partial }{\partial \theta_{j} }l(\theta) \space \space\space\space(j = 0 ... n)$
下面先求出

l(θ) $l(\theta)$ 的偏导数：

\partial \partial θ j l (θ) = \sum i = 1 m ((y (i) 1 h θ ( x ( i ) ) \partial \partial θ j h θ (x (i)) - (1 - y (i)) 1 1 - h θ ( x ( i ) ) \partial \partial θ j h θ (x (i))

$\frac {\partial }{\partial \theta_{j} }l(\theta)= \sum _{i=1}^{m}((y^{(i)}\frac {1}{h_{\theta}(x^{(i)})}\frac{\partial }{\partial \theta_{j} }h_{\theta}(x^{(i)})-(1-y^{(i)})\frac{1}{1-h_{\theta}(x^{(i)})}\frac{\partial }{\partial \theta_{j} }h_{\theta}(x^{(i)})$

= \sum i = 1 m ((y (i) 1 g ( θ T x ( i ) ) - (1 - y (i)) 1 1 - g ( θ T x ( i ) )) \partial \partial θ j g (θ T x (i))

$= \sum _{i=1}^{m}((y^{(i)}\frac {1}{g(\theta^Tx^{(i)})}-(1-y^{(i)})\frac{1}{1-g(\theta^Tx^{(i)})})\frac{\partial }{\partial \theta_{j} }g(\theta^Tx^{(i)})$

因为 $g(\theta^Tx^{i})$ 是logistic函数

g (θ T x i) = 1 1 + e - θ T x i

$g(\theta^Tx^{i})=\frac{1}{1+e^{-\theta^Tx^{i}}}$
所以我们利用前面讲的logistic函数的导数性质可以将

l(θ) $l(\theta)$ 的偏导数转化

\partial \partial θ j l (θ) = \sum i = 1 m ((y (i) 1 g ( θ T x ( i ) ) - (1 - y (i)) 1 1 - g ( θ T x ( i ) )) g (θ T x (i)) (1 - g (θ T x (i))) \partial \partial θ j θ T x (i)

$\frac {\partial }{\partial \theta_{j} }l(\theta)=\sum _{i=1}^{m}((y^{(i)}\frac {1}{g(\theta^Tx^{(i)})}-(1-y^{(i)})\frac{1}{1-g(\theta^Tx^{(i)})}) g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)})) \frac{\partial }{\partial \theta_{j} }\theta^Tx^{(i)}$

= \sum i = 1 m (y (i) (1 - g (θ T x (i))) - (1 - y (i)) g (θ T x (i))) x (i) j

$=\sum _{i=1}^{m}(y^{(i)}(1-g(\theta^Tx^{(i)}))-(1-y^{(i)})g(\theta^Tx^{(i)}) )x_{j}^{(i)}$

= \sum i = 1 m (y (i) - g (θ T x (i))) x (i) j

$=\sum _{i=1}^{m}(y^{(i)}-g(\theta^Tx^{(i)}))x_{j}^{(i)}$

= \sum i = 1 m (y (i) - h θ (x (i))) x (i) j

$=\sum _{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)}$

这样就得到了更新的过程

θ j : = θ j + α \sum i = 1 m (y (i) - h θ (x (i))) x (i) j (j = 0 . . . n)

$\theta_{j} := \theta_{j} + \alpha \sum _{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)} \space \space\space\space(j = 0 ... n)$

python代码实现

本文代码运行环境：
python：3.5.1
pandas：0.19.2
其他环境可能有细微差别

# -*coding:utf-8*-
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math

# 获取数据
data = pd.read_table("./logistic.txt", sep="\t", header=None)
dataMat = data.iloc[:, 0:-1]
labelMat = data.iloc[:, -1]


def sigmoid(dataSeries):
    return 1.0 / (1 + np.exp(-dataSeries))

# 梯度上升算法
def gradAscent(dataMatrix, LabelsVector):
    n = dataMatrix.shape[1]
    alpha = 0.001
    maxCycles = 500
    thetas = np.ones((n, 1))
    for k in range(maxCycles):  # heavy on matrix operations
        h = sigmoid(dataMatrix * thetas)  # matrix mult
        error = LabelsVector.T - h  # vector subtraction
        thetas = thetas + alpha * dataMatrix.T * error  # matrix mult
    return thetas


def plotBestFit(thetas, data):
    """    
    :param thetas: type DataFrame , the thetas 
    :param data: type DtaFrame , all the data
    :return: 
    """
    X1 = data[data[3] == 0]
    X2 = data[data[3] == 1]
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(X1[1], X1[2], s=30, c='red', marker='s')
    ax.scatter(X2[1], X2[2], s=30, c='green')
    x = np.arange(-3.0, 3.0, 0.1)
    y = (-thetas.iloc[0, 0] - thetas.iloc[1, 0] * x) / thetas.iloc[2, 0]
    ax.plot(x, y)
    plt.xlabel('X1')
    plt.ylabel('X2')
    plt.show()

thetas = gradAscent(np.mat(dataMat), np.mat(labelMat))
plotBestFit(pd.DataFrame(thetas), data)