小瓜讲机器学习——分类算法（一）logistic regression(逻辑回归)算法原理详解

最新推荐文章于 2023-08-03 12:44:10 发布

努力的骆驼

最新推荐文章于 2023-08-03 12:44:10 发布

阅读量1.8k

点赞数 1

文章标签：逻辑回归分类 logistic 机器学习数据分析

本文链接：https://blog.csdn.net/u012915522/article/details/91387864

版权

0. 引言

0.1 分类是什么？

“脑袋大脖子粗，不是大官就伙夫”应该是再中华大地上流传最为广泛最为浅显易懂的分类算法。所谓人以类聚，物以群分，后半句话其实就是分类的朴素主义解释和应用。
以下给出分类稍微严谨一点的朴素定义。

分类：按照某种方案将事物分门别类的划拨到不同群体（指定集合），贴上相应的标签的方法。

二分类：如果群体（指定集合）只有两种，我们叫这类问题为二分类问题
多分类：如果群体（指定集合）多于两种，我们叫这类问题为多分类问题。

单独提一个二分类主要是由于在实际应用中二分类占了很大的百分比。

0.2 分类在哪用？

分类的应用场景非常广泛，比如

通过关键词判定是否为垃圾邮件
通过调查买房人的征信记录判定是否放贷
通过打听女神的兴趣爱好追星判定我是否合女神口味
通过计算应力应变来判定结构是否安全
通过动物特征来判断该动物属于哪个门哪个目
以及字体识别等等等等等等等等

0.3 分类算法有哪些？

分类的算法众多，主要有以下几种：

逻辑回归（Logistic Regression）
K-近邻法（K-Nearest Neighbor）
支持向量机（Support Vector Machine）
决策树（Decision Tree）
神经网络（Natural Network）
朴素贝叶斯（Naive Bayes）
等等

本节主要介绍逻辑回归分类的算法原理。

1. logistic回归算法原理

逻辑回归虽然名字挂着回归，但的确是一种分类算法，而且是只能解决二分类问题中线性可分的那部分问题。我们看下面的几个例子：

显然图1.1~图1.3都是属于二分类的问题，所有的样本点要么是归为⚪点，要么归为十字点，只有两种分类结果，两种标签可以贴（⚪点也许表示是垃圾邮件，十字点表示不是垃圾邮件）。
但是图1.1与图1.2、1.3有着显著的区别，图1.1可以被超平面（注①） $\sum \omega_i{X_i}+b=0$ 所分割，所以把图1.1叫做线性可分，而图1.2、1.3不能，图1.2、1.3的叫做非线性可分。

Logistic Regression—逻辑回归法主要就是解决类似图1.1的线性可分的二分类问题。

1.1 逻辑回归模型推导

我们先引入一个二分类问题：
小明在YY中学上高一（3）班上学，对于每一位走读学生，设他的迟到概率为 $P_i\{Z=迟到\}$ ，那么 $P_i$ 肯定与学生离学校距离 $L_i$ 和每天出门时间 $T_i$ 有关。
那么小明迟到发生比（优势比）
$\frac{P_i\{Z=迟到\}}{P_i\{Z=不迟到\}}=\frac{P_i\{Z=迟到\}}{1-P_i\{Z=迟到\}}$
我们观察 $o d d s$ 随 $P_i\{Z=迟到\}$ 的变化趋势如下图
在这里插入图片描述
显然随着 $P_i$ 的增加， $o d d s$ 增加的越快，那么我们不难联想 $o d d s$ 可以用指数函数拟合，即有
$odds=e^{g(P_i)} = e^{f(L_i,T_i)}$
转变形式，可得以下拟合方案：
$ln(odds)=f(L_i,T_i)$
那么如果 $f(L_i,T_i)$ 采用一次多项式拟合，其实上式就和一般的线性回归方程一样。
$ln(\hat {odds}) = \alpha+\beta_iL_i+\gamma_iT_i=\alpha+\sum\omega_iX_i$
值得注意的点是 $\hat{odds}$ 是 $o d d s$ 的拟合值。拟合值可以推出 $\hat {P_i}$ 的表达式如下
$\frac{\hat {P_i}}{1-\hat {P_i}}=e^{(\alpha+\sum{\omega_iX_i})}$
$\frac{1}{\hat {P_i}}-1=e^{-(\alpha+\sum{\omega_iX_i})}$
$\hat {P_i}=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}}$
值得注意的是 $\hat {P_i}$ 是 $P_i$ 的拟合值（近似值）。

1.2 逻辑回归模型的意义

我们以图1.1为例，在其中添加超平面 $\Omega$ 作为分界面

图中假设十字点为事件发生，z=1，⚪点为事件不发生，z=0，超平面 $\Omega:\alpha+\sum{\omega_iX_i}=0$ , 那么对于已知的事件集 $A=\{十字点，⚪点\}$ 里面的元素，有事件发生的概率函数:
$f(z)=\begin{cases}1,元素在超平面\Omega上方时\\0,元素在超平面\Omega另一边时\end{cases}$

逻辑回归模型其实可以理解为（等效于）用 $\hat f(z)=\frac{1}{1+e^{-(\alpha+\sum{\omega_iX_i})}}$ 来拟合 $f (z)$ 。
注意到对于一个样本点 $X_i^{(j)},Z^{(j)})$ 来说，当 $g(X_i)=\alpha+\sum{\omega_iX_i}>0$ 时，表示样本点在十字点那侧，当 $g(X_i)=\alpha+\sum{\omega_iX_i}<0$ 时，表示样本点在⚪点那侧。

1.2 损失函数（评价函数）怎么定义？

还以小明班级上学迟到为例，假设小明同学——高一（3）班的所有学生都是各自上学的，所以学生迟到的概率 $P_i$ 都是独立的，假设Z=1是迟到的等价概念，那么对于某一学生，有
迟到的概率： $P_i\{Z=1\} = p_i$
不迟到的概率： $P_i\{Z=0\}=1-P_i\{Z=1\} = 1-p_i$
其实Z就是概率统计中的伯努利随机变量，那么其频率函数可以写成以下形式：
$\begin {cases} p_i^Z(1-p_i)^{1-Z} ,Z=0 or Z=1\\ 0 \end{cases}$
将 $p_i$ 的拟合值（ $\hat {P_i}=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}}$ ）代入可得
$\hat p_i(Z；\alpha,\omega_i)=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}}^Z(1-\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}})^{1-Z}$
值得注意的是 $\hat p_i(Z；\alpha,\omega_i)$ 是 $p_i(Z)$ 的拟合值（近似值），它的变量为 $(Z；\alpha,\omega_i)$ 。

当知道其中m个学生迟到与否，即有m个样本 ${(X_1^{(1)},X_2^{(1)},Z^{(1)}),...,(X_1^{(m)},X_2^{(m)},Z^{(m)})\}$
我们可以用最大似然估计方法（maximum likelihood estimate method）估计出一组参数 $(\alpha,\omega_i)$ 。

最大似然估计方法

对于每一个同学迟到与否是独立的，并且频率分布为 $\hat p_i(Z^{(i)}；\alpha,\omega_i)$ ，那么m个同学迟到与否的联合频率分布为 $L(Z；\alpha,\omega_i) = \prod_{i=0}^m\hat p_i(Z^{(i)}；\alpha,\omega_i)$
对于m个样本代入的情况下， $L(Z；\alpha,\omega_i)$ 是参数 $(\alpha,\omega_i)$ 的函数，当一组参数 $(\alpha,\omega_i)$ 使得 $L(Z；\alpha,\omega_i)$ 取最大值，这一组参数 $(\alpha,\omega_i)$ 就是估计的参数。即：
$(\alpha,\omega_i)\to \max_{(\alpha,\omega_i)} [ L(Z；\alpha,\omega_i)]$
（意思就是对于m个样本点，其观测结果（取样结果）为 $\Gamma$ ，我们通过变化参数 $(\alpha,\omega_i)$ 使得在相应的m个样本点上最大可能性出现观测结果 $\Gamma$ ，这组 $(\alpha,\omega_i)$ 就是通过最大似然估计得到的参数）

观察到上面的公式过于复杂，我们可以通过变换将其简化如下，我们称之为逻辑回归法的损失函数（评价函数）。
$(\alpha,\omega_i)\to \min_{(\alpha,\omega_i)}[-\ln L(Z；\alpha,\omega_i)]$
$\begin {aligned} -\ln L(Z；\alpha,\omega_i) & = -\ln\{ \prod_{i=1}^m\hat p_i(Z^{(i)}；\alpha,\omega_i)\}\\ &=-\sum_{i=1}^{m}\ln\hat p_i(Z^{(i)}；\alpha,\omega_i)\\ &=-\sum_{i=1}^{m}\ln\frac {1}{1+e^{-(\alpha+\sum{\omega_jX_j^{(i)}})}}^{Z^{(i)}}(1-\frac {1}{1+e^{-(\alpha+\sum{\omega_jX_j^{(i)}})}})^{1-Z^{(i)}}\\ &=-\sum_{i=1}^m\{Z^{(i)}\ln[\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}}]+(1-Z^{(i)})\ln[1-\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}}]\} \end{aligned}$
记 $h(\omega)^{(i)}=\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}}$
那么上式为：
$-\ln L(Z；\alpha,\omega_i) =-\sum_{i=1}^m\{Z^{(i)}\ln[h(\omega)^{(i)}]-(1-Z^{(i)})\ln[1-h(\omega)^{(i)}]\}$
这样就等于把问题转换为损失函数的极值问题（典型的无约束优化问题）。

1.3 极值问题怎么求解？

逻辑回归分类法最终要求解的损失函数的极值问题（无约束优化问题）。
$(\alpha,\omega_i)\to \min_{(\alpha,\omega_i)}[f(\alpha,\omega_i)]$
求解极值问题的方法有很多种，梯度下降法是最常用且简洁的算法。他的内涵思想就是从起始点 $(\alpha,\omega_i)_{t|0}$ 开始沿着 $f(\alpha,\omega_i)$ 值减小的方法搜索 $(\alpha,\omega_i)_{t|j}$ ，直到满足精度要求或者迭代步数要求。

正梯度是 $f(\alpha,\omega_i)$ 增加的方向，负梯度是 $f(\alpha,\omega_i)$ 减小方向。所以叫梯度下降法，具体算法流程如下：

选定初始值 $(\alpha,\omega_i)_{t|0}$
选择迭代步长 $\eta$ ，精度 $\delta_0$ 以及迭代次数限 $T_0$
重复以下计算过程
① 计算负梯度： $d_{t|j}=-\frac{\partial}{\partial(\alpha,\omega_i)}f(\alpha,\omega_i)_{t|j}$
② 更新参数： $(\alpha,\omega_i)_{t|j+1}=(\alpha,\omega_i)_{t|j}+d_{t|j}\times\eta$
③ 检验是否满足迭代要求： $\delta = |d_{t|j}\times\eta|<\delta_0或(2) t|j>T_0$
满足迭代要求即终止计算，输出最终 $(\alpha,\omega_i)_{t|final}$

1.4 逻辑回归算法

将极值问题的求解步骤具体应用与逻辑回归算法中，并将 $(\alpha, \omega_i),i=1,...,l$ 合并成 $W=(\omega_0,\omega_1,...,\omega_l)$ 相应将特征向量扩展的 $X=(1,x_1,...,x_l)$ 。
$\begin{aligned}d_i&=-\frac{\partial}{\partial\omega_i}f(\omega_i)\\ &=-\frac{\partial(-\ln L(Z；\omega_i))}{\partial\omega_i}\\ &=\sum_{k=1}^m[Z^{(k)}\frac{1}{h(\omega)^{(k)}}\bullet\frac{\partial h(\omega)^{(k)}}{\partial\omega_i}+(1-Z^{(k)})\frac{1}{1-h(\omega)^{(k)}}\bullet\frac{\partial (1-h(\omega)^{(k)})}{\partial\omega_i}]\\ &=\sum_{k=1}^m[Z^{(k)}(1+e^{-\sum\omega_iX_i^{(k)}})\bullet\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})^2}\\ &\qquad +(1-Z^{(k)})\frac{1+e^{-\sum\omega_iX_i^{(k)}}}{e^{-\sum\omega_iX_i^{(k)}}}]\bullet(-\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})^2})\\ &=\sum_{k=1}^m[Z^{(k)}\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})}+(1-Z^{(k)})\frac{X_i^{(k)}}{1+e^{-\sum\omega_iX_i^{(k)}}}]\\ &=\sum_{k=1}^mZ^{(k)}X_i^{(k)}\frac{-e^{-\sum\omega_iX_i^{(k)}}-1}{1+e^{-\sum\omega_iX_i^{(k)}}}+X_i^{(k)}\frac{1}{1+e^{-\sum\omega_iX_i^{(k)}}}\\ &=\sum_{k=1}^mX_i^{(k)}(h(\omega)^{(k)}-Z^{(k)})\end{aligned}$
所以逻辑回归算法流程如下：
1.将特征向量扩展成 $X=(1,x_1,...,x_l)$ ；
2.选定初始值 $(\omega_0,\omega_1,...,\omega_l)_{t=0}$ ；
3.选择迭代步长 $\eta$ ，精度 $\delta_0$ 以及迭代次数限 $T_0$
4.重复以下计算过程：
　　① 计算负梯度： $d_{i|{t=j}}=\sum_{k=1}^mX_i^{(k)}(h(\omega)^{(k)}-Z^{(k)}),j=0,1,...,(T_0-1)$
　　② 更新各个参数： $\omega_{i|{t=j+1}}=\omega_{i|{t=j}}+d_{i|{t=j}}\times\eta$
　　③ 检验是否满足迭代要求： $\delta = |d_{i|{t=j}}\times\eta|<\delta_0或(2) t=j>T_0$
5.满足迭代要求即终止计算，输出最终 $\omega_{i|{t=final}}$

参考文献：

[1]. 机器学习[M]. 周志华.
[2]. logistic回归：从生产到使用
[3]. 逻辑回归二分类总结(不断迭代，直到彻底掌握)
[4]. Python机器学习算法[M].赵志勇.

文章导引列表：
机器学习

数据分析

数据可视化

努力的骆驼

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
小瓜讲机器学习——分类算法（一）logistic regression(逻辑回归)算法原理详解

0. 引言0.1 分类是什么？“脑袋大脖子粗，不是大官就伙夫”应该是再中华大地上流传最为广泛最为浅显易懂的分类算法。所谓人以类聚，物以群分，后半句话其实就是分类的朴素主义解释和应用。以下给出分类稍微严谨一点的朴素定义。分类：按照某种方案将事物分门别类的划拨到不同群体（指定集合），贴上相应的标签的方法。二分类：如果群体（指定集合）只有两种，我们叫这类问题为二分类问题多分类：如果群体（指定...
复制链接

扫一扫