逻辑回归(Logistic Regression)

最新推荐文章于 2023-05-09 09:29:57 发布

西红柿爱喝水

最新推荐文章于 2023-05-09 09:29:57 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：逻辑回归机器学习数据挖掘监督学习

本文链接：https://blog.csdn.net/qq_42800926/article/details/121966987

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

逻辑回归(Logistic Regression)

文章目录

逻辑回归(Logistic Regression)

1 变量表

符号	含义
$m$	训练集样本数量
$n$	特征数量
${{x}^{(i)}},{{y}^{(i)}})$	训练集中第 $i$ 个样本， ${y}^{(i)}\in{\{1,0\}}$
${x}^{(i)}$	第 $i$ 个输入值
$\hat{y}^{(i)}$	第 $i$ 个输出值
${x}^{(i)}_j$	第 $i$ 个输入值的第 $j$ 个特征
$h$	假设函数

2 逻辑回归模型

在这里插入图片描述

图1 逻辑回归模型

图1中， $h$ 代表 $h y p o t h e s i s$ 假设（📑在机器学习中一般这么叫，andrew觉得不太好听~），它一般是模型输入的函数，在二分类逻辑回归模型中， $h$ 的表达方式为：
$\begin{cases} h_{\theta} (x^{(i)})=g(z)=\frac{1}{1+{{e}^{-z}}}\\ z=\theta^Tx^{(i)} \end{cases} \tag{1}$

其中,
$\begin{aligned} \theta &=[\theta_{0},\theta_{1},···,\theta_{n}]^T\\ x^{(i)}&=[x^{(0)},x^{(1)},···,x^{(n)}]^T \end{aligned}$

$\theta_0, \theta_1 ,···,\theta_n$ 为模型参数， $x_{0}^{(i)}$ 规定为1。 $g (z)$ 如图2所示：

在这里插入图片描述

图2

实际上， $h_{\theta} (x^{(i)})$ 的作用是对于给定的输入变量 $x^{(i)}$ ，根据选择的参数计算输出变量 $\hat{y}^{(i)}=1$ 的可能性（estimated probablity）即:
$h_\theta \left( x^{(i)} \right)=P\left( \hat{y}^{(i)}=1|x^{(i)};\theta \right)\tag{2}$

当判定边界为 $0.5$ 时，模型输出表达式为：
$\hat{y}^{(i)}= \begin{cases} 1,h_{\theta} (x^{(i)})\ge0.5\ \ (\theta^Tx^{(i)}\ge0)\\ 0,h_{\theta} (x^{(i)})< 0.5\ \ (\theta^Tx^{(i)}< 0) \end{cases}\tag{3}$

3 代价函数（Cost Function）

建模误差，指的是模型输出值（预测或估计值）与训练集中实际值之间的差距，即：
$error=\hat{y}^{(i)}-y^{(i)}\tag{4}$

考虑模型所有的输出值与实际值的差距，通常用代价函数来综合评估建模误差，逻辑回归模型的代价函数表达式一般为：
$\begin{cases} J ( \theta) = \frac{1}{m}\sum\limits_{i=1}^m cost(\hat{y}^{(i)},y^{(i)}) \\ cost(\hat{y}^{(i)},y^{(i)})=-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right) \tag{5} \end{cases}$

$cost(\hat{y}^{(i)},y^{(i)})$ 随 $h_\theta\left( {{x}^{(i)}} \right)$ 的变化情况如图3所示：
在这里插入图片描述

图3

由图3可知:
当实际的 $y^{(i)}=1$ 且 ${h_\theta}( x ^{(i)})$ 也为 1 时误差为 0，当 $y^{(i)}=1$ 但 ${h_\theta}( x ^{(i)})$ 不为1时误差随着 ${h_\theta}( x ^{(i)})$ 变小而变大。
当实际的 $y^{(i)}=0$ 且 ${h_\theta}( x ^{(i)})$ 也为 0 时代价为 0，当 $y^{(i)}=0$ 但 ${h_\theta}( x ^{(i)})$ 不为 0时误差随着 ${h_\theta}( x ^{(i)})$ 变大而变大。

当 $n = 1$ 时， $(\theta_0, \theta_1)$ 示意如图4所示：
在这里插入图片描述

图4 n=1时损失函数示意图

4 求解模型参数

求解模型参数的过程可以表示为无约束最优化问题，即：
$\mathop{min}\limits_{\theta \in R^n}J(\theta) \tag{6}$
故， $\theta=arg \mathop{min}\limits_{\theta \in R^n}J(\theta)$ 。

4.1 梯度下降（Gradient Descent）

梯度下降是一个用来求函数最小值的方法，该方法通过不断的迭代模型参数，使得目标函数（这里即为代价函数 $J$ ）达到局部最小值。

梯度下降的迭代公式为：
$\begin{cases} {\theta_{0}}:={\theta_{0}}-\alpha \frac{\partial }{\partial {\theta_{0}}} J(\theta) \\ {\theta_{1}}:={\theta_{1}}-\alpha \frac{\partial }{\partial {\theta_{1}}} J(\theta) \\···\\{\theta_{n}}:={\theta_{n}}-\alpha \frac{\partial }{\partial {\theta_{n}}} J(\theta) \end{cases}\tag{7}$

其中， $\alpha$ 称为学习率， $\frac{\partial }{\partial {\theta_{j}}}J(\theta)=\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{j}^{(i)}$ 。
式 $(7)$ 写成矩阵形式为：
$\theta:=\theta-\alpha \nabla J(\theta) \tag{8}$
其中， $\nabla J(\theta)=[\frac{\partial }{\partial {\theta_{0}}}J(\theta),\frac{\partial }{\partial {\theta_{1}}}J(\theta),···,\frac{\partial }{\partial {\theta_{n}}}J(\theta)]^T$ 。

参数	可取方法
模型参数初始值	随机选取
学习率	$0.01\rightarrow0.03\rightarrow0.1\rightarrow······$
迭代停止条件	代价函数收敛

判断代价函数 $J(\theta)$ 收敛的办法一般为画出“代价函数值——迭代次数”图，如图5所示。即每进行一次式 $(7)$ 的计算，便进行一次式 $(5)$ 的计算。
在这里插入图片描述

图5 损失函数值随迭代次数变化示意图

4.2 其他算法

共轭梯度法、BFGS(变尺度法)、L-BFGS(限制变尺度法)······

5 一对多(one-vs-all)

当 ${y}^{(i)}\in{\{1,0\}} \to{y}^{(i)}\in{\{1,2,3,···,k,···\}}$ 时：
将 ${y}^{(i)}=1$ 标记为正向类，将 ${y}^{(i)}\ne1$ 标记为负向类，构建二分类逻辑回归模型 $h_\theta^{( 1 )}\left( x^{(i)} \right)$ ；
将 ${y}^{(i)}=2$ 标记为正向类，将 ${y}^{(i)}\ne2$ 标记为负向类，构建二分类逻辑回归模型 $h_\theta^{\left( 2\right)}\left( x^{(i)} \right)$ ；
······
将 ${y}^{(i)}=k$ 标记为正向类，将 ${y}^{(i)}\ne k$ 标记为负向类，构建二分类逻辑回归模型 $h_\theta^{\left( k\right)}\left( x^{(i)} \right)$ ；
······
式 $(2)$ 转化为：
$h_\theta^{\left( k\right)}\left( x^{(i)} \right)=p\left( y^{(i)}=k|x^{(i)};\theta \right)\tag{9}$

式 $(3)$ 转化为：
$\begin{cases} \hat{y}^{(i)}=k\\ h_\theta^{\left( k \right)}(x^{(i)})=\mathop{\max}\limits_i\,h_\theta^{\left( k \right)}\left( x^{(i)} \right) \tag{10} \end{cases}$

式 $(10)$ 即为一对多逻辑回归模型的输出表达式。

补充说明📝：

• 最优化相关知识后面看情况再补上。（ps:上课笔记丢了，难受n+1😭）
• $B a t c h$ 梯度下降是指计算代价函数时用到了训练集所有样本。
• 机器学习中的“梯度下降”实际上是指最速下降算法，即搜索方向为负梯度方向。学习率即为搜索步长。
• 在逻辑回归模型中，代价函数 $J(\theta)$ 为凸函数，故求得的局部最小值即为全局最小值。
• 学习率取值不合适可能导致代价函数发散、不收敛或收敛速度慢等问题。