线性回归，softmax回归，多层感知机，激活函数的基本概念

hadiii

已于 2023-12-18 13:16:37 修改

阅读量1k

点赞数 22

文章标签：回归线性回归算法

于 2023-12-08 21:06:48 首次发布

本文链接：https://blog.csdn.net/qq_46348508/article/details/134887273

版权

线性回归

在这里插入图片描述

线性回归是一种单层神经网络。

线性模型的预测公式：
$\hat{y} = Xw + b$
这个公式表示向量 $\hat{y}$ （预测值）是矩阵 $X$ （特征）和向量 $w$ （权重）的乘积加上偏置项 $b$ 。这里， $\in R^{n \times d}$ ，其中 $n$ 是样本数量， $d$ 是特征数量。
每个样本的平方误差损失：
$l^{(i)}(w, b) = \frac{1}{2} (\hat{y}^{(i)} - y^{(i)})^2$
整个数据集的平均损失：
$\frac{1}{n} \sum_{i=1}^{n} l^{(i)}(w, b) = \frac{1}{n} \sum_{i=1}^{n} \frac{1}{2} (w^T x^{(i)} + b - y^{(i)})^2$
最优参数的求解：
$w^*, b^*) = \arg \min_{w,b} L(w, b)$

指定超参数，本问题中是批量大小和学习率。
初始化模型参数的值，如从均值为0、标准差为0.01的正态分布中随机采样，偏置参数初始化为零。
从数据集中随机抽取小批量样本且在负梯度的方向上更新参数，并不断迭代这一步骤。
$\leftarrow w - \frac{\eta}{|B|} \sum_{i \in B} \frac{\partial l^{(i)}(w, b)}{\partial w} = w - \frac{\eta}{|B|} \sum_{i \in B} x^{(i)} \left( w^T x^{(i)} + b - y^{(i)} \right)$
$\leftarrow b - \frac{\eta}{|B|} \sum_{i \in B} \frac{\partial l^{(i)}(w, b)}{\partial b} = b - \frac{\eta}{|B|} \sum_{i \in B} \left( w^T x^{(i)} + b - y^{(i)} \right)$

在这里插入图片描述

softmax回归是一种单层神经网络。

Softmax函数的定义：softmax函数将一个实数向量转换为概率分布。对于每个元素，它计算该元素的指数与所有元素的指数之和的比值。这样可以确保输出向量的所有元素都是非负的，并且总和为1，因此可以被视为概率分布。
$\hat{y} = \text{softmax}(o) \quad \text{其中} \quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}$
输出就是选择最有可能的类别：尽管softmax函数改变了输出向量的值，但它不改变元素之间的顺序。
$\arg \max_j \hat{y}_j = \arg \max_j o_j$
交叉熵损失：在多分类问题中，模型预测的概率分布为 $\hat{y}$ ，而真实的标签分布为 $y$ 。交叉熵损失函数用于度量这两个分布之间的差异。公式如下：
$\hat{y}) = -\sum_{j=1}^{q} y_j \log \hat{y}_j$
交叉熵损失的导数：损失函数的梯度是模型预测的概率与真实标签之间的差异。
$\frac{\partial}{\partial o_j} l(y, \hat{y}) = \text{softmax}(o)_j - y_j$

在这里插入图片描述

一个单隐藏层的多层感知机，具有5个隐藏单元。

如果我们只是将输入通过仿射变换（线性变换和偏置）传递给隐藏层，然后再将隐藏层的输出通过仿射变换传递给输出层，那么整个模型仍然是一个仿射函数，这并没有比单层模型提供更多的表达能力。

为了使多层模型能够表达更复杂的函数，我们需要在隐藏层的仿射变换后应用一个非线性的激活函数 $\sigma$ 。这样，模型的计算公式变为：
$\sigma(XW^{(1)} + b^{(1)})$
$O = HW^{(2)} + b^{(2)}$

ReLU 的求导表现特别好：要么让参数消失，要么让参数通过。当输入为负时，ReLU函数的导数为0，而当输入为正时，ReLU函数的导数为1。这使得优化表现得更好，并且ReLU减轻了困扰以往神经网络的梯度消失问题。其数学定义如下：
$\text{ReLU}(x) = \max(x, 0)$
Sigmoid函数 是一种常用的激活函数，它将实数输入映射到(0, 1)的范围内，因此也被称为挤压函数。sigmoid函数是一个自然的选择，因为它是一个平滑的、可微的阈值单元近似。它的数学定义如下：
$\text{sigmoid}(x) = \frac{1}{1 + \exp(-x)}$
双曲正切函数（tanh） 是另一种常用的激活函数，它将实数输入映射到(-1, 1)的范围内。tanh函数是关于原点对称的。它的数学定义如下：
$\text{tanh}(x) = \frac{1 - \exp(-2x)}{1 + \exp(-2x)}$

关注