Logistic回归算法

喂★借个微笑

已于 2022-12-24 00:28:59 修改

阅读量468

点赞数

分类专栏：机器学习学习笔记文章标签：回归算法逻辑回归

于 2022-08-19 21:49:21 首次发布

本文链接：https://blog.csdn.net/qq_52804425/article/details/126396329

版权

机器学习学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Logistic回归算法

5.1Logistic回归
5.2 Logistic回归优化算法
5.3 分类问题的度量
- 5.3.1 准确率，精确率与召回率
- 5.3.2 ROC曲线及AUC度量
5.4 Softmax回归(二元分类到k元分类推广)
- 5.4.1 Softmax回归概念
- 5.4.2 Softmax回归优化算法

源码传送门

5.1Logistic回归

在 $k$ 元分类问题中，对任意样本 $x\in X$ ， $D_x$ 为 $x$ 的标签分布。监督式学习的任务是对给定样本 $x$ 预测 $E_{y D_x}[y]$ ， $E_{y D_x}[y]$ 的第 $i$ 个分量为对象属于第 $i$ 个类别的概率。可见分类问题的监督式学习任务是对给定的特征组 $x$ 预测对象属于每一个类别的概率。
对于概率问题和普通的回归最大的区别在于，概率值只能在 $Pr\in[0,1]$ ，所以一般情况都会使用sigmoid函数作为Logistic模型。
Logistic模型取定特征组 $x\in\mathbb{R^n}$ ，称模型
$h_w(x)=sigomid(<w,x>)=\frac{1}{1+e^{-<w,x>}}$
为一个Logistic模型。
下面是sigomid函数图像
在这里插入图片描述
模型的损失函数采用对数损失函数，对任意 $y=(y_1,y_2,...,y_k),z=(z_1,z_2,...,z_k)\in[0,1]^k$ 。(y为真实值，z为预测值， $0,1]^k$ 表示k维每个维度的值在[0,1]之间)
$l(y,z)=-\sum_{t=1}^{k}y_tlogz_t$
这里查到的解释是，均方误差损失函数会使优化问题变得非凸，最后有多的局部最优解。
对于特殊的二元分类问题可以化简表示为
$l(y,h_w(x))=ylog(1+e^{-<w,x>})+(1-y)log(1+e^{<w,x>})$

Logistic回归
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出：Logistic模型 $h_{w^*}(x)=\frac{1}{1+e^{-<w^*,x>}}$ ,使得 $w^*\in\mathbb{R^n}$ 为如下优化问题的最优解
$\underset{w\in \mathbb{R^n}}{min}\sum_{i=1}^m{\frac1m} [ y^{(i)}log(1+e^{-<w,x^{(i)}>}) + (1-y^{(i)})log(1+e^{<w,x^{(i)}>}) ]$

模型的优化目标函数称为交叉熵
如果标签分布是伯努利分布，用 $Y$ 表示标签的随机变量，则 $Y$ 有如下参数化形式
$P_w(Y=y)= \begin{cases} h_w(x) & 如果y=1 \\ 1-h_w(x) & 如果y=0 \\ \end{cases}$
上式等价于 $P_w(Y=y)=h_w(x)^y(1-h_w(x)^{1-y})$
然后最大似然函数为
$Like(w|y^{(1)},y^{(2)}, \cdots ,y^{(m)}) =\prod_{i=1}^mp_w(Y=y^{(i)}) = \prod_{i=1}^mh_w(x^{(i)})^{y^{(i)}}(1-h_w(x^{(i)})^{(1-y^{(i)}}))$
取对数即可得到
$\sum_{i=1}^m{\frac1m} [ y^{(i)}log(1+e^{-<w,x^{(i)}>}) + (1-y^{(i)})log(1+e^{<w,x^{(i)}>}) ]$
乘以-1/m即为交叉熵。这是交叉熵的统计意义，交叉熵是信息论中的概念还有别的解释
这里对于模型中 $< w, x >$ 采用线性或者质数及其他何种形式，有一个指数分布族作为指导，但是我实在看不懂。

5.2 Logistic回归优化算法

优化求解方法和前面一样的方法求梯度然后梯度下降
$\nabla l(y,h_w(x))=-yx\frac{e^{-<w,x>}}{1+e^{-<w,x>}} + (1-y)x\frac{e^{<w,x>}}{1+e^{<w,x>}}=x(h_w(x^{(i)})-y^{(i)})$
$X$ 为mn矩阵，Y为m1矩阵， $h_w(x)$ 为m*1矩阵
最终 $\nabla F(w)=\frac1mX^T(h_w(X)-y)$

5.3 分类问题的度量

5.3.1 准确率，精确率与召回率

首先是一个用来表示用的示性函数 $1\{\}:\{True,False\}\rightarrow\{0,1\}$ 定义为
$1\{True\}=1,1\{False\}=0$
示性函数就是布尔值到0，1整数的映射。
准确率：
$Accuracy_T(h)=\frac{\sum_{i=1}^m1\{h(x^{(i)})=y^{(i)}\}}{m}$
准确率的计算可以解释为，预测结果正确的概率
对于二元分类问题还有如下的两种度量方法
先说明一下几个符号的含义：
如果 $y = 1$ 且 $h (x) = 1$ ，则称该预测为真正（True positive）
如果 $y = 0$ 且 $h (x) = 1$ ，则称该预测为假正（False positive）
如果 $y = 0$ 且 $h (x) = 0$ ，则称该预测为真负（True negative）
如果 $y = 1$ 且 $h (x) = 0$ ，则称该预测为假负（False negative）
精确率：
$Precision_T(h)=\frac{TP}{TP+FP}$
预测出的正样本中预测正确的概率
召回率：
$Recall_T(h)=\frac{TP}{TP+FN}$
正样本中被预测出的概率
在使用阈值分类时，可以通过设置阈值可以改变精确率和召回率，一般来说，精确率和召回率的关系是，精确率越高，召回率越低。
调和平均值：
$F_1(h)=\frac{1}{\frac{1}{Precision(h)} + \frac{1}{Recall(h)}}$
F1作为衡量指标时，平衡了精确率和召回率的影响。
但是考虑两种情况，例如对飞机零件的合格性检验就需要用精确率，因为我们希望预测出的好的零件都是符合标准的。例如在疫情核酸检测的检验标准是召回率，我们希望所有的病例都被找到。两种情况分别是两个极端，找到的都是好的，和好的都被找到。

5.3.2 ROC曲线及AUC度量

ROC曲线的纵坐标和横坐标分别是：
$真正率/TPR=\frac{TP}{TP+FN},假正率/FPR=\frac{FP}{FP+TN}$
通过选取不同的阈值就会得到下图ROC曲线
在这里插入图片描述
AUC度量：ROC曲线下方的面积
面积越接近于1说明效果越好。
曲线左上方的拐点处所对应的阈值一般来说就是所需要的。
对左上方拐点处可以解释为，负样本在预测为正样本概率很小的情况下，正样本被预测正确的概率很高。

5.4 Softmax回归(二元分类到k元分类推广)

5.4.1 Softmax回归概念

Logistic回归主要是解决的二元分类问题，最后的结果可以描述为为是类型A的概率和不是类型A的概率。但是没法进行多分类。
而实际上只需要多拟合几个模型就能进行多元分类，比如有ABC三类数据进行分类，至于要用Logistic模型拟合，A非A、B非B、C非C就能实现多分类。Softmax回归事实上也是用了这种方法。
Softmox模型： $W$ n*k矩阵
$h_w(x)=(\frac{e^{<w_1,x>}}{\sum_{t=1}^ke^{<w_t,x>}},\frac{e^{<w_2,x>}}{\sum_{t=1}^ke^{<w_t,x>}},...,\frac{e^{<w_k,x>}}{\sum_{t=1}^ke^{<w_t,x>}})$

Softmax回归
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出：Softmax模型 $h_{w^*}$ ,使得 $W^*=(w_1^*,w_2^*,...,w_k^*)$ 为如下优化问题的最优解
$\underset{w\in \mathbb{R^{n*k}}}{min}F(W)=-\frac1m\sum_{i=1}^m<y^{(i)},logh_w(x^{(i)})>$