【机器学习读书笔记】Logistic回归

最新推荐文章于 2024-08-20 08:26:13 发布

轻春

最新推荐文章于 2024-08-20 08:26:13 发布

阅读量654

点赞数

分类专栏：机器学习机器学习荐货情报局文章标签：机器学习

本文链接：https://blog.csdn.net/u010352603/article/details/75073126

版权

机器学习荐货情报局同时被 2 个专栏收录

22 篇文章 19 订阅

订阅专栏

机器学习

21 篇文章 2 订阅

订阅专栏

【机器学习读书笔记】Logistic回归

四、Logistic回归

Logistic回归属于广义线性回归模型，通过历史数据的表现对未来结果发生的概率进行预测，它属于分类和预测算法中的一种。他是用来解决二值分类（binary classification）,AndrewNG忠告：不要用线性回归去解决分类问题。

逻辑回归的回归方程和线性回归相比，在其基础上增加了一个逻辑函数（logistic函数或者 Sigmoid函数）:

$> S i g m o i d (x) = 1 1 + e - x >$ $> Sigmoid(x) = \frac{1}{1+e^{-x}} >$
回归与分类的区别：回归所预测的目标量的取值是连续的；而分类所预测的目标变量的取值是离散的。

4.1回归分析

回归分析是利用已有数据来预测数据对未来结果发生概率的。我们可以把结果设置为因变量，把数据的各个特征设置为自变量，比如用户的年龄、性别、注册时间等。回归分析用来预测自变量X和因变量Y之间的关系，或者说自变量X对因变量Y的影响程度。自变量只有一个时，成为一元回归分析；自变量有多个时，称为多元回归分析

一元线性回归方程 $y_i = b_0 + b_1x_i$ 可以使用最小二乘法通过最小化误差的平方和来寻找数据的最佳匹配系数。

4.2Logistic Regression Classifier

在解释Logistic回归之前，让我们先解释下Logistic Regression Classifier。LR分类器是经过学习后对应一组权值：

ω 0, ω 1, ω 2, ω 3, . . ., ω n

$\omega_0, \omega_1,\omega_2,\omega_3,...,\omega_n$
这组权值依次对应输入数据的各个特征

xi $x_i$ 表示每个特征对最终分类结果的影响。对于给定的一组输入数据

x 1, x 2, x 3, . . ., x n

$x_1,x_2,x_3,...,x_n$
其中的

xi $x_i$ 表示数据的各个特征。测试数据按照给定的权值进行线性加权求和得到

x = ω 0 + ω 1 x 1 + ω 2 x 2 + . . . + ω n x n

$x = \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n$
其中，

x∈(−∞,∞) $x\in(-\infty, \infty)$ , 然后把x带入logistic函数或者叫做Sigmoid函数：

f (x) = 1 1 + e - x

$f(x)= \frac{1}{1+e^{-x}}$
Sigmoid函数在定义域

(−∞,∞) $(-\infty,\infty)$ 上的值域为

(0,1) $(0,1)$ 。当

x∈(−∞,0) $x\in(-\infty,0)$ 时，

f(x)<0.5 $f(x) <0.5$ 表示输入样本点分类为1的概率比较大；当

x∈(0,∞) $x\in(0,\infty)$ 时，

f(x)>0.5 $f(x)>0.5$ 表示输入样本分类为0的概率比较大。

Sigmoid函数解释。对于输入x的n个独立的自变量或者叫特征（ $x_1,x_2,…,x_n$ ）的作用下，因变量y取1的概率是 $p=p(y=1|x)$

。定义优势比

o d d s (x) = p 1 - p

$odds(x) = \frac{p}{1-p}$
则优势比应该是

(0,∞) $(0,\infty)$ ，odds(x)越大表示y=1的可能性越大，odds(x)越接近零表示y=0的可能性越大。当优势比等于1的时候，y=0与y=1的概率相等。对odds(x)取对数并把结果记为Z.

ln p 1 - p = Z

$\ln{\frac{p}{1-p}} = Z$
则

p = p (y = 1 | x) = 1 1 + e - z

$p=p(y=1|x)=\frac{1}{1+e^{-z}}$
对于任意一个输入x，y取1的概率是由后面这个函数的值决定的。而这个函数的值和x的取值是有关的，即：

z = ω 0 + ω 1 x 1 + ω 2 x 2 + . . . + ω n x n

$z= \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n$
所以我们的任务就是，找到这样一组

ω0,ω1,ω2,ω3,...,ωn $\omega_0, \omega_1,\omega_2,\omega_3,...,\omega_n$ 使得对于训练数据中属于同一类别的样本x，计算出来的加权和要么全部大于0，要么全部小于0. 这样对应的

p(y=1|x)>0.5 $p(y=1|x)>0.5$ 或者

p(y=1|x)<0.5 $p(y=1|x)<0.5$ 达到了分类的效果。

那么现在的问题就转换为如何求出 $\omega_0, \omega_1,\omega_2,\omega_3,...,\omega_n$

4.3Logistic回归模型

下面正式开始讲逻辑回归模型，它是为了建立

ln p 1 - p

$\ln{\frac{p}{1-p}}$
与线性回归模型的关系。

对于有n个相互独立特征的自变量向量x有

x = (x 1, x 2, . . ., x n)

$x=(x_1,x_2,...,x_n)$
令

ln (p 1 - p) = g (x) = ω 0 + ω 1 x 1 + ω 2 x 2 + . . . + ω n x n

$\ln(\frac{p}{1-p}) =g(x)= \omega_0+\omega_1x_1+\omega_2x_2+...+\omega_nx_n$
则

p = 1 1 + e - g ( x )

$p=\frac{1}{1+e^{-g(x)}}$
现在假设有m个观测样本

X1,X2,X3,…,Xm $X_1, X_2,X_3,…,X_m$ 对应的观测值为

Y1,Y2,Y3,…,Ym $Y_1,Y_2,Y_3,…,Y_m$ ，设

Yi $Y_i$ ,

i∈[1,m] $i\in[1,m]$ 取1的概率为

pi=p(Yi=1|Xi) $p_i=p(Y_i=1|X_i)$ ,则观测值Yi的概率分布符合二点分布：

P (Y i) = p Y i i (1 - p i) Y i

$P(Y_i) = p_{i}^{Y_i}(1-p_i)^{Y_i}$
因为各个观测样本之间相互独立，所以他们的联合概率分布等于各边缘概率分布的乘积。得到似然函数

L (ω) = \prod i = 1 m p Y i i (1 - p i) Y i

$L(\omega)=\prod_{i=1}^{m}{ p_{i}^{Y_i}(1-p_i)^{Y_i}}$
根据极大似然参数估计法（一旦事情发生了，我们就认为这件事情发生的概率最大），现在这件事情发生的概率就是

L(ω) $L(\omega)$ ，所以使其取最大值的

ω $\omega$ 就是我们要求的参数。先对似然函数取对数，再分别对

ωi $\omega_i$ 求偏导，解一个n+1维的方程。一般的方法是无法解决的，一般有如下两种解法：

Newton’s method
梯度下降法

两者的区别参考链接.机器学习实战书中使用的是梯度下降法，具体的证明方法不是很难，但是用markdwon写有点麻烦，暂时留个坑吧。

4.4算法思路

首先根据训练样本来训练 $\omega$ 向量。该向量基本上就对应了我们的Logistic回归分类器。

使用梯度上升法找到最佳参数。梯度上升法公式：

ω : = ω + α * g r a d (f (ω))

$\omega:=\omega+\alpha*grad(f(\omega))$

落实到代码中使用上面提到的极大似然函数对公式进行了化简，主要是把梯度函数给解出来了：

h=sigmoid(dataMatirx*weights) #h是我们的预测值
error = (labelMat - h) #真实值-预测值 得到CostFunction
weights = weights + alpha * dataMatirx.transpose()*error #把每一个样本的同一个特征拿出来和CostFunction相乘 其中的alpha表示每一次的步长

这样的训练每一次都会使用全部的训练样本，虽然效果不错，但是计算量比较大。

随机梯度上升算法。

使用随机梯度上升算法是为了解决梯度上升算法效率低计算量大的问题。核心思想是在训练过程中一次只用一个训练样本来更新回归系数。也就是说每次从训练样本中取出一个样本，来训练迭代所有的回归参数。这使得该算法成为了一个在线学习算法，可以随时学习新来的数据而不用去重新遍历原来的训练集。而这之前简直就是批处理。

为了改善随机梯度上升算法的性能，以及处理收敛后数据局部抖动的问题。采取了如下措施：