03_线性神经网络_线性回归笔记

最新推荐文章于 2024-09-07 22:28:34 发布

等风来随风飘

最新推荐文章于 2024-09-07 22:28:34 发布

阅读量838

点赞数

分类专栏：动手学深度学习学习整理文章标签：机器学习

本文链接：https://blog.csdn.net/qq_29787929/article/details/121627444

版权

6 篇文章 0 订阅

订阅专栏

这篇博客介绍了线性回归的基础，包括线性模型、损失函数、解析解和梯度下降优化方法。讨论了线性回归在深度学习中的位置，提到了神经网络的构成，并指出线性回归模型可以被视为简单的神经网络。内容还涵盖了正态分布与平方损失的关系，以及在最大似然估计下的参数优化。

摘要由CSDN通过智能技术生成

3.线性神经网络

回归：一类为一个或多个自变量与因变量之间关系建模的方法。

在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。

线性回归基本假设：

权重决定了每个特征对预测值的影响
偏置是指当所有特征都取值为0时，预测值应该为多少（没有偏置会限制模型的表达能力）
给定训练数据特征X和对应的已知标签y，线性回归的目标是找到一组权重向量w和偏置b。当给定从X的同分布中取样的新样本特征时，找到的权重向量和偏置能够使得新样本预测标签的误差尽可能小。
加入一个噪声项来考虑观测误差带来的影响

损失函数能够量化目标的实际值与预测值之间的差距（模型拟合程度的度量）
回归问题中最常用的损失函数是平方误差函数
平方误差： $l^{(i)}(w,b)=(\hat{y}^{(i)}-y^{(i)})^2$ ，其中 $\hat{y}^{(i)}=(w^Tx^{(i)}+b)$
训练集n个样本上的损失均值： $L(w,b)=\frac{1} {n}\sum_{i=1}^n l^{(i)}(w,b)$
估计值和观测值之间较大的差异将贡献更大的损失，最小化在所有训练样本上的总损失： $w^*,b^*=argmin_{w,b}L(w,b)$

预测问题最小化： $y-Xw||^2$
解析解： $w^∗=(X^⊤X)^{-1}X^⊤y$

梯度下降的方法几乎可以优化所有深度学习模型，通过不断地在损失函数递减的方向上更新参数来降低误差
小批量随机梯度下降：每次需要计算更新的时候随机抽取一小批样本（因为梯度下降在每次更新前都要遍历整个数据集，在实际中运行很慢）
梯度更新过程：（1）初始化模型参数的值，如随机初始化；（2）从数据集中随机抽取小批量样本且在负梯度的方向上更新参数，并不断迭代这一步骤。
$\leftarrow(w,b)-\frac{\eta} {|B|}\sum_{i\in B} \alpha_{w,b} l^{(i)}(w,b)$
$\leftarrow w-\frac{\eta} {|B|}\sum_{i\in B} \partial_{w,b} l^{(i)}(w,b) = w-\frac{\eta} {|B|}\sum_{i\in B}x^{(i)}(w^Tx^{(i)}+b-y^{(i)})$
$\leftarrow b-\frac{\eta} {|B|}\sum_{i\in B} \partial_{w,b} l^{(i)}(w,b) = b-\frac{\eta} {|B|}\sum_{i\in B}(w^Tx^{(i)}+b-y^{(i)})$
其中批大小 $∣ B ∣$ ，学习率 $\eta$ ，这些可以调整但不在训练过程中更新的参数称为超参数
算法会使得损失向最小值缓慢收敛，但却不能在有限的步数内非常精确地达到最小值。
泛化：找到一组参数使得模型在未见的数据上具有较低的损失

预测或推断：给定特征估计目标

在统计学中，推断更多地表示基于数据集估计参数

矢量化代码通常会带来数量级的加速

正太分布/高斯分布，概率密度函数：
$p(x)=\frac{1} {\sqrt{2\pi\sigma^2}}\exp(\frac{(x-\mu)^2}{2\sigma^2})$
改变均值会产生沿 x 轴的偏移，增加方差将会分散分布、降低其峰值
均方误差损失函数（简称均方损失）可以用于线性回归的一个原因是：我们假设了观测中包含噪声，其中噪声服从正态分布。噪声正态分布如下式：
$w^Tx +b + \epsilon$ where $\epsilon \in N(0,\sigma^2)$
根据最大似然估计法，参数w和b的最优值使整个数据集的可能性最大的值：
$P(y|X)=\prod_{i=1}^n p(y^{(i)}|x^{(i)})$
最大似然估计乘积计算困难，简化为最大化似然对数：
$-logP(y|X)=\sum_{i=1}^n\frac{1}{2}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y^{(i)}-w^Tx^{(i)}-b)^2$
由公式可知，在高斯噪声的假设下，最小化均方误差等价于对线性模型的最大似然估计

关注

专栏目录