前言:更新参数整体的过程理论顺序
- 贝叶斯概率 -> 极大似然
- 极大似然 -> 损失函数
- 极大似然+损失函数 -> 熵
- 损失函数->梯度
- 梯度-> 反向传播
- 梯度+反向传播 -> 参数
整体目的:
- 拟合函数
- (分类问题:也可以理解为拟合函数本身,最后只不过是多个神经元输出,谁最大就分到哪一类)
贝叶斯概率:
-
- 即,后验=先验×似然函数
- p(w): 参数的先验分布
- p(D|w):
- 似然函数
- 关于w的函数
- 给定参数w的情况下,训练数据D的可能性
- p(w|D):
- 后验分布
极大似然 与 极小负对数似然:
- 对于所有数据点x, 数据值与预测值之间的误差(损失函数)服从高斯分布
- 即,
- 对于独立同分布的数据点,概率密度的乘积为似然函数
- 通过极大化似然函数,可以得到关于参数w的极大似然解
- 理解:得到的概率最大,就是它
- 极大化似然函数==极小化负对数似然函数
- 极小化负对数似然==极小化损失函数
- 回归问题:
- 忽略后两项==> 最小化MSE损失
- 分类问题:
- ==> 最小化交叉熵损失
- 回归问题:
高斯分布+熵+损失函数+交叉熵:
- 接前:为什么损失函数的概率分布是高斯分布?
- 因为:给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布
- 概率和熵:p(x)很,则熵大
- 一件p(x)很小的事情发生了,那么它中间的信息量多大啊。。。
- 负对数似然的函数==熵的公式(很巧,或者人家数学家就是这么定义)
- (即, 损失函数函数最小化的问题 和 熵 挂钩了)
损失函数 与 梯度:
损失函数+梯度下降+梯度:
一.梯度下降法目标: 求损失函数最小值处 参数w 的取值
二.什么是梯度----将问题转化为“最小值点”问题----求导导数为零
- 梯度:损失函数对参数求偏导数==损失函数增长|下降最快的方向
三.梯度下降----迭代找到将梯度最小化(导数为零)的点(参数值)
反向传播算法:
一.简单过程
BP算法: 1.分为向前传播 2.反向传播 3.参数更新
三.具体过程
1.向前传播: 计算每个神经元的输入和输出:
2.反向传播: 计算每个神经元的delta:
3.更新参数:利用向前传播存储的a, z计算每个神经元的delta
4.训练: 即多次更新参数, 直至收敛
PS: 损失函数|目标函数的辨析:
- 损失函数|代价函数是一个东西:数据值和预测值差最小
- 目标函数的概念更广
- 在有约束条件下的最小化的目标函数就是损失函数