逻辑回归算法

最新推荐文章于 2024-06-15 09:50:41 发布

Smile_Smilling

最新推荐文章于 2024-06-15 09:50:41 发布

阅读量491

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Smile_Smilling/article/details/88073215

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

一、逻辑回归与线性回归区别与联系

区别

联系

把线性回归模型简写为

$y = \omega ^{T}x+b$ (3.2)

对y取对数，得到对数线性回归

$lny=\omega ^Tx+b$

上式实际上是在试图让 $e^{w^Tx+b}$ 逼近y。虽然形式上是线性回归，但实质上已是在求取输入空间到输出空间的非线性函数映射。更一般地，可以得到以下广义线性模型

$y = g^{-1}(w^Tx+b)$

这里另 $g^{-1}(\cdot )$ 等于对数几率函数 $y=\frac{1}{1+e^{-z}}$ ，可得到以下模型

$y = \frac{1}{1+e^{-(w^Tx+b)}}$

二、逻辑回归原理

对数线性模型，对（3.2）式两边取对数得

$lnf(x)=lne^{(w^{T}x+b)}$

简化为以下形式

$y=g^{-1}(w^{T}x+b)$ (3.15)

引入对数几率函数 $y=\frac{1}{1+e^{-z}}$

将对数几率函数带入（3.15）式，得

$y=\frac{1}{1+e^{-(w^{T}x+b)}}$ (3.18)

$\frac{y}{1-y}=e^{(w^Tx+b)}$ (3.18.1)

两边取对数，转化为对数线性回归模型，得

$ln\frac{y}{1-y}=w^{T}x+b$

概率模型 $ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b$

有（3.18）式转换可得，

$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$ ，（3.23）

$p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}}$ （3.24）

三、损失函数

逻辑回归跟线性回归不同，采用的损失函数是极大似然函数。

逻辑回归模型最大化“对数似然”

$\l (w,b)= \sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)$ (3.25)

令 $\beta =(w;b)$ ， $x^{'}=(x;1)$ ，则 $w^{T}x+b$ 可简写成 $\beta ^{T}x^{'}$ .再令 $p_{1}(x^{'};\beta )=p(y=1|x^{'};\beta )$ ，

$p_{0}(x^{'};\beta )=p(y=0|x^{'};\beta )=1-p_{1}(x^{'};\beta )$ ，则式（3.25）中的似然项可重写为

$p(y_{i}|x_{i};w,b)=y_{i}p_{1}(x^{'}_{i};\beta )+(1-y_{i})p_{0}(x^{'}_{i};\beta )$ (3.26)

当 $y_{i}=1$ 或 $y_{i}=0$ ,即可获得式（3.23）和（3.24）

（3.23）式用 $\beta$ 简写， $p_{1}(x^{'}_{i};\beta )=\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}$

等式两边取对数

$lnp_{1}(x^{'}_{i};\beta )=ln\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}=lne^{\beta ^{T}x^{'}_{i}}-ln(1+e^{\beta ^{T}x^{'}_{i}})=\beta ^{T}x^{'}_{i}-ln(1+e^{\beta ^{T}x^{'}_{i}})$

（3.24）式用 $\beta$ 简写， $p_{0}(x^{'}_{i};\beta )=\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}$

等式两边取对数 $lnp_{1}(x^{'}_{i};\beta )=ln\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}=-ln(1+e^{\beta ^{T}x^{'}_{i}})=-ln(1+e^{\beta ^{T}x^{'}_{i}})$

由以上可得，我们将（3.26）带入（3.25），可得到最小化公式

$\l (\beta )= \sum_{i=1}^{m}lnp(y_{i}|x_{i};\beta)= \sum_{i=1}^{m}(-y_{i}\beta ^{T}x^{'}_{i}+ln(1+e^{\beta ^{T}x^{'}_{i}}))$ （3.27）

令 $y_{i}=1$ 或 $y_{i}=0$ ,即可得到以上推导过程，式（3.27）为最小化，（3.25）为最大化，

所以上式加了个负号。

代价函数为： $J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} ))$

四、正则化与评估指标

正则化

包括L1范数和L2范数。

首先针对L1范数，正则化项为 $\frac{\lambda }{m}\omega$ ，目标函数如下

$J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} )+\lambda \omega )$

当采用梯度下降方式来优化目标函数时，对目标函数进行求导，正则化项导致的梯度变化当wj>0时取1，

当wj<0时取-1.

L2范数，正则化项为 $\frac{\lambda }{2m}\sum_{i=j}^{n}\omega _j^2$ ，目标函数如下

$J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} )+\frac{\lambda}{2} \sum_{j=1}^{n}\omega_j^2 )$

同样对它求导，正则化项导数为 $\omega _j$ 。

评估指标

ROC曲线

ROC曲线的横坐标为false positive rate（FPR），纵坐标为 true positive rate（TPR）当测试集中的正负样

本的分布变化的时候，ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序，依次将

“Score”值作为阈值，当测试样本属于正样本的概率大于或等于这个阈值时，认为它为正样本，否则为负样本。

计算出ROC曲线下面的面积，就是AUC的值。介于0.5和1.0之间，越大越好。

Kappa statics
Kappa值，即内部一致性系数(inter-rater,coefficient of internal consistency)，是作为评价判断的一致性程度

的重要指标。取值在0～1之间。Kappa≥0.75两者一致性较好；0.75>Kappa≥0.4两者一致性一般；Kappa<0.4两

者一致性较差。

Mean absolute error 和 Root mean squared error
平均绝对误差和均方根误差，用来衡量分类器预测值和实际结果的差异，越小越好。

Relative absolute error 和 Root relative squared error
相对绝对误差和相对均方根误差，有时绝对误差不能体现误差的真实大小，而相对误差通过体现误差占真值

的比重来反映误差大小。

五、优缺点

六、样本不均衡问题解决方法

样本不均衡也称为类别不均衡，即每个类别的数据量是不一样的。

假设有三个类别，分别为A，B，C。在训练集中，A类的样本占70%，B类的样本占25%，C类的样本占5%。

最后我的分类器对类A的样本过拟合了，而对其它两个类别的样本欠拟合。

解决方法：

1、产生新样本

过采样：将稀有类别的样本进行复制，通过增加此稀有类样本的数量来平衡数据集；

欠采样：从丰富类别的样本中随机选取和稀有类别相同数目的样本，通过减少丰富类的样本量来平衡数据集。

2、修改权重

在训练分类器时，为稀有类别的样本赋予更大的权值，为丰富类别的样本赋予较小的权值。

七、sklearn.linear_model.LogisticRegression

参考链接：https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

Smile_Smilling

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归算法

一、逻辑回归与线性回归区别与联系区别联系把线性回归模型简写为 (3.2) 对y取对数，...
复制链接

扫一扫

专栏目录