机器学习--02算法--05逻辑回归和Softmax回归

dalangtaosha999

已于 2023-12-28 16:06:02 修改

阅读量103

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归算法

于 2023-04-21 14:10:40 首次发布

本文链接：https://blog.csdn.net/dalangtaosha999/article/details/129799783

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍两种基本的分类方法，逻辑回归和softmax回归。

一、逻辑回归（Logistic Regression）

1. 基本概念

逻辑回归不是回归，而是二分类，又称对数几率回归。它是在线性回归的外面包裹一层Sigmoid函数，把线性回归压缩（映射）到（0,1）区间上。
回忆一下，线性回归表达式为 $f(x)=w^Tx$ 。那么逻辑回归的表达式为 $h(x)=g(f(x))=g(w^Tx)$ ,其中， $g$ 为sigmoid函数，表达形式见下图。
在这里插入图片描述

2.工作原理

在这里插入图片描述

以二维平面样本为例，线性回归是求一条直线，对应方程为： $y=w_1x+w_0$ , 参数有二： $w_1$ 和 $w_0$ ；逻辑回归方程为 $h(x)=g(f(x))=g(w_1x_1+w_2x_2+w_0)$ ，参数有三： $w_1、w_2$ 和 $w_0$ . 线性回归的目标值是一个值，逻辑回归的目标值是二分类布尔型，对或者错，为了方便计算，分别赋值为 1 和 0.
逻辑回归的目的就是求出一组 $w_1、w_2$ 和 $w_0$ ，使得对于目标值为 1 的样本， $h (x)$ 的值尽量接近 1；对于目标值为 0 的样本， $h (x)$ 的值尽量接近 0 。
在实际应用中，基于已经求得的参数，和已知的样本值，得到一个 $h (x)$ 值， $h (x) < 0.5$ ，将其归类为类别“0”； $h (x) > 0.5$ ，将其归类为类别 “1”。可以理解 $h (x)$ 为概率值。

3.损失函数

想要求参数，需要损失函数，即如何构建函数，能表达出上表中的 $h (x) 和 y$ 的差异，并且使得这种差异最小。显然，无法使用线性回归中的均方误差损失函数，因为 $h (x)$ 是计算得出的实际值， $y$ 是概率值，二者不是一个层级上的。此处用交叉熵损失函数（cross entropy loss），又称对数似然损失函数，求解时利用梯度下降法。
$J(w)=-{\frac{1}{n}}\sum_{i=1}^{n}\left[y^{i}\log(h_{w}(x^{i}))+(1-y^{i})\log(1-h_{w}(x^{i}))\right]$

其中： $w$ 为参数， $n$ 为样本总量， $i$ 为样本序号, $h_{w}(x^{i})$ 为计算值， $y^i$ 为目标值。
这个算式的意思是， $y^i$ 只有 0 和 1 两个值，且每个样本 $i$ 只有一个 $y$ ，中括号中的两项只有1项不为0。对于 $y = 1$ ，前面项不为0，要求 $h_{w}(x^{i})$ 尽量接近1，才能保证此项为0；对于 $y = 0$ ，后面项不为0，要求 $h_{w}(x^{i})$ 尽量接近0，才能保证此项为0。注：当不接近1时， $J (w)$ 是大于0的。

4.参数求解

$\begin{aligned} w_{i+1}&=w_i-\alpha\frac{\partial J(w)}{\partial{w}_i}\\ \\ &=w_i-\alpha\frac{1}{m}\sum_{i=1}^m(h_w(x^i)-y^i)x^i \end{aligned}$

详细推导见邱锡鹏书
实际运用中损失函数会加入L2范数防止过拟合，具体见logistic回归分类与softmax回归

二、Softmax回归

1. 基本概念

逻辑回归是二分类，Softmax回归是多分类，y值不再局限于0和1。是第一类、第二类、第三类这种概念，转成方便计算的形式一般写成one-hot，[1,0,0]，[0,1,0]，[0,0,1]分别对应第1、2、3类的形式。

2. 工作原理

和逻辑回归一样，计算方式分为两步，第一步，计算 $w^Tx$ ，第二步包裹Softmax函数。
考虑1个简单的图像分类问题：图像有4个像素，分别记为 $x_1,x_2,x_3,x_4$ ，表示3种动物：狗、猫、鸡。
那么先进行第一步：
$\begin{array} {c}o_1=w_{11}x_1+w_{12}x_2+w_{13}x_3+w_{14}x_4+b_1\\ o_2=w_{21}x_1+w_{22}x_2+w_{23}x_3+2_{24}x_4+b_2\\ o_3=w_{31}x_1+w_{32}x_2+w_{33}x_3+2_{34}x_4+b_3 \end{array}$
第二步包裹Softmax：
$\begin{array} {c}\hat{y_{1}},\hat{y_{2}},\hat{y_{3}}=Softmax\big(o_{1},o_{2},o_{3}\big)\\ \end{array}$
其中， $\hat {y_1}=\dfrac{\exp(o_1)}{\sum_{i=1}^3\exp(o_i)},\hat{y_2}=\dfrac{\exp (o_2)}{\sum_{i=1}^3\exp o_i},\hat{y_3}=\dfrac{\exp (o_3)}{\sum_{i=1}^3\exp o_i}$

$\hat {y_1}、\hat {y_2}、\hat {y_3}$ 分别是三种动物的概率，3类概率总和为 1。

写成矩阵计算的形式为：

系数矩阵为：
$\mathbf{W}=\begin{bmatrix}w_{11}&w_{12}&w_{13}\\ w_{21}&w_{22}&w_{23}\\ w_{31}&w_{32}&w_{33}\\ w_{41}&w_{42}&w_{43}\end{bmatrix},\quad\mathbf{b}=\begin{bmatrix}b_1&b_2&b_3\end{bmatrix},$
输入样本为：
$\boldsymbol{x}^{(i)}=\begin{bmatrix}x^{(i)}_1&x^{(i)}_2&x^{(i)}_3&x^{(i)}_4\end{bmatrix},$
上标 $i$ 为样本序号。

输出为：
$\boldsymbol{o}^{(i)}=\left[\begin{array}{ccc}o_1^{(i)}&o_2^{(i)}&o_3^{(i)}\\ \end{array}\right],$
概率为：
$\hat{\boldsymbol{y}}^{(i)}=\begin{bmatrix}\hat{y}_1^{(i)}\quad\hat{y}_2^{(i)}\quad\hat{y}_3^{(i)}\end{bmatrix}.$
总体形式为：
$\begin{array}{l}\boldsymbol{o}^{(i)}=\boldsymbol{x}^{(i)}\boldsymbol{W}+\boldsymbol{b},\\ \boldsymbol{\hat{y}}^{(i)}=\operatorname{softmax}(\boldsymbol{o}^{(i)}).\end{array}$
第一步可以表示成神经网络的形式：
在这里插入图片描述