Logistics Rrgression(Logistics回归)

最新推荐文章于 2021-04-18 18:17:26 发布

l_ricardo

最新推荐文章于 2021-04-18 18:17:26 发布

阅读量550

点赞数

分类专栏： macOS Python ML

本文链接：https://blog.csdn.net/l_ricardo/article/details/77604408

版权

Python 同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

macOS

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

Logistics Rrgression(Logistics回归)

Logistic回归
优点:计算代价不高，易于理解和实现。
缺点:容易欠拟合，分类精度可能不高。适用数据类型:数值型和标称型数据。

Logistic回归的一般过程
(1) 收集数据:采用任意方法收集数据。
(2) 准备数据:由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。
(3) 分析数据:采用任意方法对数据进行分析。
(4) 训练算法:大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。
(5) 测试算法:一旦训练步骤完成，分类将会很快。
(6) 使用算法:首先，我们需要输入一些数据，并将其转换成对应的结构化数值; 接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定它们属于哪个类别;在这之后，我们就可以在输出的类别上做一些其他分析工作。

前导知识

Sigmoid函数

s (x) = 1 1 - e - x

$s(x)=\frac{1}{1-e^{-x}}$

当 $x$ 为0时，Sigmoid函数值为0.5，随着 $x$ 的增大，对应的Sigmoid值将趋近与1；而随着 $x$ 的减小，Sigmoid值将逼近于0。如果刻度足够大，Sigmoid函数看起来很像一个阶跃函数。(如下两图)

特性：

s' (x) = e - x ( 1 - e - x ) 2 = s (x) (1 - s (x))

$s'(x) =\frac{e^{-x}}{(1-e^{-x})^2}=s(x)(1-s(x))$
![屏幕快照 2017-08-20 09.04.22](/Users/liwei/Desktop/屏幕快照 2017-08-20 09.04.22.png)

![屏幕快照 2017-08-20 09.07.27](/Users/liwei/Desktop/屏幕快照 2017-08-20 09.07.27.png)

最大似然估计(Maximum Likelihood Estimate，MLE)

它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是：一个随机试验如有若干个可能的结果A，B，C，…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。一般地，事件A发生的概率与参数 $\theta$ 相关，A发生的概率记为P(A， $\theta$ )，则 $\theta$ 的估计应该使上述概率达到最大，这样的 $\theta$ 顾名思义称为极大似然估计。

梯度上升法(Gradient Ascent)公式推导

记Sigmoid函数的输入为 $x$ ,对应的分类为 $y$

x = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + \cdot \cdot \cdot + θ n x n

$x=\theta_0x_0+\theta_1x_1+\theta_2x2+···+\theta_nx_n$
令

h θ (x) = g (θ T x) = 1 1 + e - θ T x (其 中 θ 为 回 归 系 数 矩 阵 ， x 为 输 入 变 量 矩 阵)

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}(其中\theta为回归系数矩阵，x为输入变量矩阵)$
由于Sigmoid函数的性质，我们对分类做如下处理

y = {01 h θ (x) < 0.5 h θ (x) > 0.5

$y=\begin{cases} 0&h_\theta(x)<0.5\\ 1&h_\theta(x)>0.5 \end{cases}$
于是我们假设：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$P(y=1|x;\theta)=h_\theta(x)\\ P(y=0|x;\theta)= 1 - h_\theta(x)$
所以

P (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$P(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}$
根据极大似然估计，假设样本与样本之间独立，整个样本生成的概率即为所有样本生成概率的乘积,

L(θ) $L(\theta)$ 最大时取得最佳回归系数

L (θ) = P (y ⃗ | x ⃗; θ) = \prod i = 1 n P (y (i) | x (i); θ) = \prod i = 1 n h θ (x (i)) y (i) (1 - h θ (x (i))) (1 - y (i)) y ⃗ 和 x ⃗ 分 别 为 n 组 数 据 的 输 出 与 输 入 组 成 的 矩 阵, y (i) 和 x (i) 为 第 i 组 数 据

$\begin{align*} L(\theta)&=P(\vec{y}|\vec{x};\theta) \\&=\prod^{n}_{i=1}P(y^{(i)}|x^{(i)};\theta) \\&=\prod^{n}_{i=1}h_\theta(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{(1-y^{(i)})} \end{align*} \\\vec{y}和\vec{x}分别为n组数据的输出与输入组成的矩阵,y^{(i)}和x^{(i)}为第i组数据$
为方便计算，对总概率

L (θ)

$L(\theta)$ 取自然对数

l (θ) = l n (L (θ)) = \sum i = 1 n y (i) l n (h θ (x (i))) + (1 - y (i)) l n (1 - h θ (x (i))) = \sum i = 1 n y (i) l n (g (θ T x (i))) + (1 - y (i)) l n (1 - g (θ T x (i)))

$\begin{align*} l(\theta)&=ln(L(\theta)) \\&=\sum^{n}_{i=1}y^{(i)}ln(h_\theta(x^{(i)}))+(1-y^{(i)})ln(1-h_\theta(x^{(i)})) \\&=\sum_{i=1}^{n}y^{(i)}ln(g(\theta^{T} x^{(i)}))+(1-y^{(i)})ln(1-g(\theta^{T}x^{(i)})) \end{align*}$
通过梯度上升法求出

l (θ)

$l(\theta)$ 最大时对应的各个回归系数

\partial l ( θ ) \partial θ j = \sum i = 1 n (y ( i ) g ( θ T x ( i ) ) - 1 - y ( i ) 1 - g ( θ T x ( i ) )) (\partial g ( θ T x ( i ) ) \partial θ j) = \sum i = 1 n (y ( i ) g ( θ T x ( i ) ) - 1 - y ( i ) 1 - g ( θ T x ( i ) )) g (θ T x (i)) (1 - g (θ T x (i))) \partial θ T x ( i ) \partial θ j = \sum i = 1 n (y (i) (1 - g (θ T x (i))) - (1 - y (i)) g (θ T x (i))) x j = \sum i = 1 n (y (i) - h θ (x (i))) x j = (y - h θ (x)) x j

$\begin{align*} \frac{\partial l(\theta)}{\partial \theta_j}&=\sum_{i=1}^{n}(\frac{y^{(i)}}{g(\theta^Tx^{(i)})}-\frac{1-y^{(i)}}{1-g(\theta^{T}x^{(i)})})(\frac{\partial g(\theta^{T}x^{(i)})}{\partial \theta_j}) \\&=\sum_{i=1}^{n}(\frac{y^{(i)}}{g(\theta^Tx^{(i)})}-\frac{1-y^{(i)}}{1-g(\theta^{T}x^{(i)})})g(\theta^{T}x^{(i)})(1-g(\theta^{T}x^{(i)}))\frac{\partial \theta^T x^{(i)}}{\partial \theta_j} \\&=\sum_{i=1}^{n}(y^{(i)}(1-g(\theta^{T}x^{(i)}))-(1-y^{(i)})g(\theta^{T}x^{(i)}))x_j \\&=\sum_{i=1}^{n}(y^{(i)}-h_\theta(x^{(i)}))x_j \\&=(y-h_\theta(x))x_j \end{align*}$
所以最终梯度上升求最佳回归系数的表达式为：

θ = θ + α (y - h θ (x)) x 其 中 α 为 步 长 ， x 为 输 入 变 量 矩 阵 ， θ 为 回 归 系 数 矩 阵

$\theta=\theta+\alpha(y-h_\theta(x))x \\其中\alpha为步长，x为输入变量矩阵，\theta为回归系数矩阵$
重复计算此表达式，直到该结果收敛(既与训练集中的数据相差小于某个值)或者重复到一定次数时。

随机梯度上升(Stochastic Gradient Ascent)

随机梯度上升法是为了解决大数据需要计算特别久的情况。采用每次随机选择一个样本来更新回归数据，使回归系数更快的收敛。

代码解释

# -*- coding: UTF-8 -*-
from numpy import *
def loadDataSet():
    dataMat = []; labelMat = []
    fr = open('testSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]),float(lineArr[1])])
    labelMat.append(int(lineArr[2]))
    return dataMat,labelMat

def sigmoid(inX): # sigmoid函数
    return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels): # 梯度上升
    dataMatrix = mat(dataMatIn)
    labelMat = mat(classLabels).transpose() # transpose函数为转置函数
    m,n = shape(dataMatrix)
    alpha = 0.001 # 步长
    maxCycles = 500 # 最多循环500次
    weights = ones((n,1)) # 将回归系数最开始都初始为1
    for k in range(maxCycles):
        '''
            以下均为矩阵计算，而非数组计算
            其中weight为回归系数labelMat为y，h为h(x)，dataMartix为x
        '''
        h = sigmoid(dataMatrix * weights)
        error = (labelMat - h)
        weights = weights + alpha * dataMatrix.transpose() * error
    return weights

l_ricardo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Logistics Rrgression(Logistics回归)

Logistics Rrgression(Logistics回归) Logistic回归优点:计算代价不高，易于理解和实现。缺点:容易欠拟合，分类精度可能不高。适用数据类型:数值型和标称型数据。 Logistic回归的一般过程 (1) 收集数据:采用任意方法收集数据。 (2) 准备数据:由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。 (3)
复制链接

扫一扫

专栏目录