深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解

前言:更新参数整体的过程理论顺序

 

  1. 贝叶斯概率 -> 极大似然
  2. 极大似然 -> 损失函数
  3. 极大似然+损失函数  -> 熵
  4. 损失函数->梯度
  5. 梯度-> 反向传播
  6. 梯度+反向传播 ->  参数

整体目的:

  • 拟合函数
  • (分类问题:可以理解为拟合函数本身,最后只不过是多个神经元输出,谁最大就分到哪一类)

贝叶斯概率:

 

    • 即,后验=先验×似然函数
  • p(w): 参数的先验分布
  • p(D|w)
    • 似然函数
    • 关于w的函数
    • 给定参数w的情况下,训练数据D的可能性
  • p(w|D): 
    • 后验分布

极大似然 与 极小负对数似然:

  • 对于所有数据点x, 数据值与预测值之间的误差(损失函数)服从高斯分布
    • 即,
  • 对于独立同分布的数据点,概率密度的乘积似然函数
  • 通过极大化似然函数,可以得到关于参数w的极大似然解
    • 理解:得到的概率最大,就是它
  • 极大化似然函数==极小化负对数似然函数
  • 极小化负对数似然==极小化损失函数
    • 回归问题:
      • 忽略后两项==> 最小化MSE损失
    • 分类问题:
      • ==> 最小化交叉熵损失

高斯分布+熵+损失函数+交叉熵:

  • 接前:为什么损失函数的概率分布是高斯分布? 
    • ​​​​​​​因为:给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布
  • ​​​​​​​概率和熵:p(x)很,则熵大
    • ​​​​​​​​​​​​​​一件p(x)很小的事情发生了,那么它中间的信息量多大啊。。。
  • ​​​​​​​负对数似然的函数==熵的公式(很巧,或者人家数学家就是这么定义)
    • ​​​​​​​(即, 损失函数函数最小化的问题 和 熵 挂钩了

损失函数 与 梯度:

损失函数+梯度下降+梯度:

一.梯度下降法目标: 求损失函数最小值处 参数w 的取值

二.什么是梯度----将问题转化为“最小值点”问题----求导导数为零

  • 梯度:损失函数对参数求偏导数==损失函数增长|下降最快的方向

三.梯度下降----迭代找到将梯度最小化(导数为零)的点(参数值)

反向传播算法:

一.简单过程

BP算法: 1.分为向前传播     2.反向传播         3.参数更新 

三.具体过程

1.向前传播: 计算每个神经元的输入和输出:

  

2.反向传播: 计算每个神经元的delta:

3.更新参数:利用向前传播存储的a, z计算每个神经元的delta

4.训练: 即多次更新参数, 直至收敛

​​​​​​​



PS: 损失函数|目标函数的辨析: 

  • 损失函数|代价函数是一个东西:数据值和预测值差最小
  • 目标函数的概念更广
  • 在有约束条件下的最小化的目标函数就是损失函数 

反向传播伪代码:

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值