《神经网络与深度学习》邱锡鹏学习笔记(三):线性回归、参数学习方法

线性回归

线性回归是一种对自变量和因变量之间的关系进行建模的回归分析。自变量就是样本的特征向量 x x x,因变量就是标签 y y y y y y是连续值,假设空间是一组参数化的线性函数。 f ( x ; w , b ) = w T x + b f(x;w, b) = w^Tx + b f(x;w,b)=wTx+b
其中,权重向量 w w w偏置 b b b都是可学习的参数,函数 f ( x ; w , b ) f(x;w, b) f(x;w,b)也称为线性模型。将公式改写为 f ( x ; w ^ ) = w ^ T x ^ f(x; \hat w) = \hat w^T\hat x f(x;w^)=w^Tx^
其中, w ^ \hat w w^ x ^ \hat x x^ 分别称为增广权重向量增广特征向量。在后面的介绍中,用 w w w, x x x分别代表增广权重向量和增广特征向量。模型简化为 f ( x ; w ) = w T x f(x;w) = w^Tx f(x;w)=wTx
在这里插入图片描述

参数学习

给定有 N N N个训练样本的训练集 D = ( x ( n ) , y ( n ) ) , 1 ≤ n ≤ N D = {(x^{(n)}, y^{(n)})}, 1 ≤ n ≤ N D=(x(n),y(n)),1nN,学习一个最优的线性回归模型的参数 w w w,分别使用如下四种参数估计方法。

1.经验风险最小化

由于模型输出标签为连续的实数值,所以这里使用平方损失函数来衡量真实标签和预测标签之间的差异。训练集上定义经验风险为
在这里插入图片描述
其中, y y y是每个样本的真实标签组成的列向量, X X X是所有输入样本特征向量组成的矩阵。
在这里插入图片描述
风险函数是 w w w的凸函数,对 w w w求偏导,有
在这里插入图片描述
令偏导数为0,得到最优的参数为
在这里插入图片描述
这种求解线性回归参数的方法也称为最小二乘法。
:在这种方法中, X X T XX^T XXT必须存在逆矩阵,参数才有解,当不可逆时可以先使用主成分分析等方法预处理数据,再使用最小二乘估计方法来求解。或者直接用梯度下降法求解。

2.结构风险最小化

为了解决经验风险最小化中必须保证 X X T XX^T XXT可逆这一问题,提出岭回归,给 X X T XX^T XXT的对角线元素都加上一个常数 λ λ λ使得 ( X X T + λ I ) (XX^T + λI) (XXT+λI)满秩,这样最优的参数为
在这里插入图片描述
这里的解可以看做是结构风险最小化准则下的最小二乘法估计。结构风险最小化等价于正则化,是为了防止过拟合提出的策略。在经验风险上加上表示模型复杂度的正则化项。 λ > 0 \lambda>0 λ>0为正则化系数。
在这里插入图片描述

3.最大似然估计

最大似然估计通过建模条件概率 p ( y ∣ x ) p(y|x) p(yx)的角度来进行参数估计,假设标签 y y y为一个随机变量,其服从以均值为 f ( x ; w ) = w T x f(x;w) = w^Tx f(x;w)=wTx,方差为 σ 2 σ^2 σ2 的高斯分布。
在这里插入图片描述
参数 w w w在训练集 D D D上的似然函数
在这里插入图片描述
其中, y = [ y ( 1 ) , ⋅ ⋅ ⋅ , y ( N ) ] T y = [y^{(1)}, · · · , y^{(N)}]^T y=[y(1),,y(N)]T为所有样本标签组成的向量, X = [ x ( 1 ) , ⋅ ⋅ ⋅ , x ( N ) ] X = [x^{(1)}, · · · , x^{(N)}] X=[x(1),,x(N)] 为所有样本特征向量组成的矩阵。
:似然函数 p ( x ∣ w ) p(x|w) p(xw)的含义是已知随机变量 x x x时,不同的参数 w w w对其分布的影响。
为方便计算,对似然函数取对数得到对数似然函数。
在这里插入图片描述
然后进行最大似然估计,就是说找到一组参数 w w w使得似然函数 p ( y ∣ X ; w , σ ) p(y|X;w, σ) p(yX;w,σ)最大,等价于对数似然函数最大。:这里可以理解为找到一个参数,在这组参数下得到此训练集中的样本的概率最大,也就是说对应上此样本集,从而求得参数。
对对数似然函数求导,使其等于0,得到下式,最大似然估计的解和最小二乘估计的解相同。
在这里插入图片描述

4.最大后验估计

  • 回忆基础知识
    贝叶斯定理:描述的是在已知一些条件下,某事件的发生几率。是关于随机事件A和B的条件概率的一则定理。
    在这里插入图片描述
    在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示。
    在这里插入图片描述
    :分母的变换由全概率公式得到,假设 { B n : n = 1 , 2 , 3 , . . . } \lbrace Bn : n = 1, 2, 3, ... \rbrace {Bn:n=1,2,3,...}是一个概率空间的有限或者可数无限的分割(即 B n Bn Bn为一完备事件组),且每个集合 B n Bn Bn是一个可测集合,则对任意事件A有全概率公式:
    在这里插入图片描述
    又可以写做
    在这里插入图片描述
    后验概率:一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。
    后验概率是在给定证据 X X X后,参数 θ \theta θ的概率: p ( θ ∣ X ) p(\theta |X) p(θX)。与似然函数相对,其为在给定了参数 θ \theta θ后,证据 X X X的概率: p ( X ∣ θ ) p(X|\theta ) p(Xθ)
    两者的联系是:定义参数先验概率服从的分布为 p ( θ ) p(\theta) p(θ),样本 x x x的可能性为 p ( x ∣ θ ) p(x|\theta) p(xθ),那么后验概率定义为
    在这里插入图片描述
    正比于可能性(也就是似然函数) x 先验概率。所以也可以理解为一个随机变量在给定另一随机变量值之后的后验概率分布可以通过先验概率分布与似然函数相乘并除以归一化常数求得。
    在这里插入图片描述
  • 最大后验概率估计
    假设参数 w w w为一个随机向量,并服从一个先验分布 p ( w ; ν ) p(w; ν) p(w;ν)。简单起见,一般令 p ( w ∣ ν ) p(w|ν) p(wν)为各向同性的高斯分布。
    在这里插入图片描述
    根据贝叶斯公式,那么参数 w w w后验概率分布为
    在这里插入图片描述
    其中, p ( y ∣ X ; w , σ ) p(y|X;w, σ) p(yX;w,σ)为w的似然函数, p ( w ; ν ) p(w; ν) p(w;ν)为w的先验概率分布。这种估计参数 w w w的后验概率分布的方法称为贝叶斯估计,采用贝叶斯估计的线性回归也称为贝叶斯线性回归
    找到最优的参数值,可以使用最大后验概率估计,就是找到最优参数为后验分布中概率密度最高的参数 w w w
    在这里插入图片描述
    对后验概率取对数得到
    在这里插入图片描述
    等价于平方损失的结构风险最小化。这里正则化系数为 λ = σ 2 / ν 2 λ = σ^2/ν^2 λ=σ2/ν2

参考文献

https://zh.wikipedia.org/wiki/后验概率
https://zh.wikipedia.org/wiki/全概率公式
https://zh.wikipedia.org/wiki/贝叶斯定理

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习可以用于非线性回归预测。在深度学习中,可以使用神经网络来建模非线性关系。通过输入特征数据,神经网络可以学习到输入和输出之间的复杂映射关系,从而进行预测。 在非线性回归预测中,首先需要定义生成测试数据。一种常见的方法是使用平方函数加上噪声来生成数据。例如,可以使用公式y_data = np.square(x_data) + noise来生成非线性的数据。 接下来,可以使用神经网络来进行非线性回归预测。将x_data作为输入,通过神经网络得到预测值。然后,将预测值与真实值y_data进行比较,通过调整神经网络参数,使预测值与真实值之间的差异最小化。这个过程称为训练神经网络。 通过深度学习的非线性回归预测,可以更好地建模复杂的数据关系,并且具有较好的预测性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Matlab算法学习指南(数值计算、机器学习、信号处理、图像处理)](https://download.csdn.net/download/weixin_41784475/88221221)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Tensorflow深度学习笔记(四)-利用神经网络预测非线性回归示例](https://blog.csdn.net/juyin2015/article/details/78679707)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值