深度学习基础----贝叶斯概率＋极大似然＋损失函数＋熵＋梯度＋反向传播：更新参数过程连贯地理解

无意识积累中

已于 2023-03-01 13:02:38 修改

阅读量1.5k

点赞数

分类专栏：深度学习基础文章标签：深度学习机器学习逻辑回归

于 2019-11-29 14:52:36 首次发布

本文链接：https://blog.csdn.net/weiwei935707936/article/details/103310594

版权

深度学习基础专栏收录该内容

45 篇文章 5 订阅

订阅专栏

前言：更新参数整体的过程理论顺序

贝叶斯概率－> 极大似然
极大似然 -> 损失函数
极大似然＋损失函数 -> 熵
损失函数－>梯度
梯度－> 反向传播
梯度＋反向传播　-> 参数

整体目的：

拟合函数
（分类问题：也可以理解为拟合函数本身，最后只不过是多个神经元输出，谁最大就分到哪一类）

贝叶斯概率：

- 即，后验＝先验×似然函数
p(w): 参数的先验分布
p(D|w):
- 似然函数
- 关于w的函数
- 给定参数w的情况下，训练数据D的可能性
p(w|D):　
- 后验分布

极大似然　与　极小负对数似然：

对于所有数据点x, 数据值与预测值之间的误差（损失函数）服从高斯分布
- 即，
对于独立同分布的数据点，概率密度的乘积为似然函数
通过极大化似然函数，可以得到关于参数w的极大似然解
- 理解：得到的概率最大，就是它
极大化似然函数＝＝极小化负对数似然函数
极小化负对数似然＝＝极小化损失函数
- 回归问题：
  - 忽略后两项＝＝> 最小化MSE损失
- 分类问题：
  - ＝＝> 最小化交叉熵损失

高斯分布＋熵＋损失函数＋交叉熵：

接前：为什么损失函数的概率分布是高斯分布？　
- 因为：给定均值和方差的约束下，交叉信息熵最大的分布是高斯分布
概率和熵：p(x)很，则熵大
- 一件p(x)很小的事情发生了，那么它中间的信息量多大啊。。。
负对数似然的函数＝＝熵的公式（很巧，或者人家数学家就是这么定义）
- （即，　损失函数函数最小化的问题　和　熵　挂钩了）

损失函数　与　梯度：

损失函数＋梯度下降＋梯度：

一.梯度下降法目标：　求损失函数最小值处　参数w　的取值

二.什么是梯度----将问题转化为“最小值点”问题----求导导数为零

梯度：损失函数对参数求偏导数==损失函数增长｜下降最快的方向

三.梯度下降----迭代找到将梯度最小化（导数为零）的点（参数值）

反向传播算法：

一.简单过程

BP算法: 1.分为向前传播 2.反向传播 3.参数更新

三.具体过程

1.向前传播: 计算每个神经元的输入和输出:

2.反向传播: 计算每个神经元的delta:

3.更新参数:利用向前传播存储的a, z计算每个神经元的delta

4.训练: 即多次更新参数, 直至收敛

PS: 损失函数｜目标函数的辨析：　

损失函数｜代价函数是一个东西：数据值和预测值差最小
目标函数的概念更广
在有约束条件下的最小化的目标函数就是损失函数

反向传播伪代码：

无意识积累中

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

深度学习基础----贝叶斯概率＋极大似然＋损失函数＋熵＋梯度＋反向传播：更新参数过程连贯地理解

前言：更新参数整体的过程理论顺序

整体目的：

贝叶斯概率：

极大似然 与 极小负对数似然：

高斯分布＋熵＋损失函数＋交叉熵：

损失函数 与 梯度：

损失函数＋梯度下降＋梯度：

一.梯度下降法目标： 求损失函数最小值处 参数w 的取值

二.什么是梯度----将问题转化为“最小值点”问题----求导导数为零

三.梯度下降----迭代找到将梯度最小化（导数为零）的点（参数值）

反向传播算法：

一.简单过程

三.具体过程

PS: 损失函数｜目标函数的辨析：

反向传播伪代码：

极大似然　与　极小负对数似然：

损失函数　与　梯度：

一.梯度下降法目标：　求损失函数最小值处　参数w　的取值

PS: 损失函数｜目标函数的辨析：