Task01:线性回归/softmax与分类模型/多层感知机_简述多层感知机与线性回归的区别-CSDN博客

本文链接：https://blog.csdn.net/u012117153/article/details/104303116

Task01:线性回归/softmax与分类模型/多层感知机

1. 线性回归

线性回归是最基础的一类回归模型。线性回归问题就是试图学到一个线性模型 $y = w^Tx+b$ 尽可能准确地预测新样本的输出值。也就是说，我们希望学习到一个 f(.) 的关系，使得 f(x) 的值尽可能地逼近真实的y值。
那么确定 w 和 b 的值就是我们最终学习的目标。而这二者值的确定，关键在于衡量 f(x)（预测值）和 y（真实值）的差别。而均方误差MSE (Mean Squared Error)是回归任务中最常用的性能度量，因此我们可以通过均方差最小化来计算 w 和 b 的值：
在这里插入图片描述
均方误差几何意义对应了欧氏距离。基于均方误差最小化来进行模型求解的方法称为最小二乘法(least square method)。在线性回归中，最小二乘法就是找到一条离所有样本的欧式距离之和最近的直线。
而求解 w 和 b ，使得预测误差E最小化的过程被称为线性回归模型的最小二乘参数估计。将误差E分别对 w 和 b 进行求导：
在这里插入图片描述
令上述两个导数均为零即可得到 w 和 b 的解析解：

线性回归模型虽然简单，但确实很多模型的基础。如对数线性回归，逻辑回归，感知机等模型，都是基于线性模型的变体，逻辑回归作为一类分类模型更是得到了广泛的应用，下面一篇博客对逻辑回归模型进行了详细的解释：逻辑回归

2.softmax与分类模型

softmax回归(softmax函数)实际上是logistic回归(sigmoid函数)的多类别分类推广的一般形式。
softmax函数是来自于sigmoid函数在多分类情况下的推广，他们的相同之处：
1.都具有良好的数据压缩能力是实数域R→[ 0 , 1 ]的映射函数，可以将杂乱无序没有实际含义的数字直接转化为每个分类的可能性概率。
2.都具有非常漂亮的导数形式，便于反向传播计算。
3.它们都是 soft version of max ，都可以将数据的差异明显化。
相同的，他们具有着不同的特点，sigmoid函数可以看成softmax函数的特例，softmax函数也可以看作sigmoid函数的推广。
1.sigmoid函数前提假设是样本服从伯努利 (Bernoulli) 分布的假设，而softmax则是基于多项式分布。首先证明多项分布属于指数分布族，这样就可以使用广义线性模型来拟合这个多项分布，由广义线性模型推导出的目标函数即为Softmax回归的分类模型。
2.sigmoid函数用于分辨每一种情况的可能性，所以用sigmoid函数实现多分类问题的时候，概率并不是归一的，反映的是每个情况的发生概率，因此非互斥的问题使用sigmoid函数可以获得比较漂亮的结果；softmax函数最初的设计思路适用于首先数字识别这样的互斥的多分类问题，因此进行了归一化操作，使得最后预测的结果是唯一的。
softmax把分类输出标准化成概率分布，cross-entropy（交叉熵）刻画预测分类和真实结果之间的相似度。softmax函数的表达形式一般如下：
在这里插入图片描述
这个结果满足了概率分布的标准化要求：在所有类别上的输出概率都不小0，且所有类别上的输出概率和等于1。
Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。特别地，在多项逻辑回归和线性判别分析中，函数的输入是从K个不同的线性函数得到的结果，而样本向量 x 属于第 j 个分类的概率为：
在这里插入图片描述
经过 softmax 转换为标准概率分布的预测输出，与正确类别标签之间的损失，可以用两个概率分布的 cross-entropy（交叉熵）来度量:

交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

3.多层感知机

感知机算法是后面多层神经网络和支持向量的基础。深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。

隐藏层

下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。

在这里插入图片描述

表达公式

具体来说，给定一个小批量样本 $\boldsymbol{X} \in \mathbb{R}^{n \times d}$ ，其批量大小为 $n$ ，输入个数为 $d$ 。假设多层感知机只有一个隐藏层，其中隐藏单元个数为 $h$ 。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 $\boldsymbol{H}$ ，有 $\boldsymbol{H} \in \mathbb{R}^{n \times h}$ 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 $\boldsymbol{W}_h \in \mathbb{R}^{d \times h}$ 和 $\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$ ，输出层的权重和偏差参数分别为 $\boldsymbol{W}_o \in \mathbb{R}^{h \times q}$ 和 $\boldsymbol{b}_o \in \mathbb{R}^{1 \times q}$ 。

我们先来看一种含单隐藏层的多层感知机的设计。其输出 $\boldsymbol{O} \in \mathbb{R}^{n \times q}$ 的计算为

$\begin{aligned} \boldsymbol{H} &= \boldsymbol{X} \boldsymbol{W}_h + \boldsymbol{b}_h,\\ \boldsymbol{O} &= \boldsymbol{H} \boldsymbol{W}_o + \boldsymbol{b}_o, \end{aligned}$

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

$\boldsymbol{O} = (\boldsymbol{X} \boldsymbol{W}_h + \boldsymbol{b}_h)\boldsymbol{W}_o + \boldsymbol{b}_o = \boldsymbol{X} \boldsymbol{W}_h\boldsymbol{W}_o + \boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o.$

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 $\boldsymbol{W}_h\boldsymbol{W}_o$ ，偏差参数为 $\boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o$ 。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

激活函数

上述问题的根源在于全连接层只是对数据做仿射变换（affine transformation），而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。
非线性激活函数常用的有sigmoid函数，tanh函数，relu函数及其五花八门的变种。
ReLu函数是一个通用的激活函数，目前在大多数情况下使用。但是，ReLU函数只能在隐藏层中使用。
用于分类器时，sigmoid函数及其组合通常效果更好。由于梯度消失问题，有时要避免使用sigmoid和tanh函数。
在神经网络层数较多的时候，最好使用ReLu函数，ReLu函数比较简单计算量少，而sigmoid和tanh函数计算量大很多。
在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数。