目录
深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解
一元线性预测误差
线性回归:预测误差平行于y轴:实际值y-预测值y‘(y'在预测直线上)
均方误差:所有线性回归的预测误差之和,为均方误差
最小二乘法损失函数:每个实际值于预测值的均方误差的平方和
正交回归:预测误差,法向垂直的红线
argmin使得式子取得最小值的变量的取值
有序的多值离散特征、无序的多值离散特征
最小二乘估计与极大似然估计的殊途同归
当要拟合的随机变量的样本之间独立,且噪声服从正态分布时,最小二乘假设和极大似然假设是等价的。
最小二成估计
极大似然估计
使得观测样本出现概率最大的分布就是待求分布;
也即使得联合概率(似然函数)L(θ)取到最大值的θ*,θ*为θ的估计值
θ:当为高斯分布,有两个待估计的参数值:是μ、σ;当为伯努利分布,有一个待估
极大似然估计
y为正态分布中的x,(wx+b)为μ
这里的凸函数与高数里是反的
向量化求解ω,便于使用python的NumPy库
默认分母布局
广义线性模型
最大熵、交叉熵、极大似然估计
联合熵:
最大熵原理
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机变量的分布是很难预测的,一般只能测得其各种统计量(如数学期望,方差)或者已知某些限定条件的值(如峰值、取值个数等),符合测得这些值得分布可以有多种,通常其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽然有一定的主观性,但是可以认为是最符合客观情况的一种选择。在投资时候常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。数学上称之为最大熵原理。
那么,什么是熵呢?简单来说,熵就是对平均不确定性的度量:
由以上公式可知,熵是随机变量不确定性的度量,不确定性越大,熵就越大;当随机变量变成一个确定值的时候,熵就变成了0.需要指出的是均匀分布是最不确定的分布。
最大熵的一般模型:
其中P={p|p是X上满足条件的概率分布}
深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解
- 贝叶斯概率 -> 极大似然
- 极大似然 -> 损失函数
- 极大似然+损失函数 -> 熵
- 损失函数->梯度
- 梯度-> 反向传播
- 梯度+反向传播 -> 参数
整体目的:
- 拟合函数
- (分类问题:也可以理解为拟合函数本身,最后只不过是多个神经元输出,谁最大就分到哪一类)
贝叶斯概率:
- 即,后验=先验×似然函数
- p(w): 参数的先验分布
- p(D|w):
- 似然函数
- 关于w的函数
- 给定参数w的情况下,训练数据D的可能性
- p(w|D):
- 后验分布
-
极大似然 与 极小负对数似然:
- 对于所有数据点x, 数据值与预测值之间的误差(损失函数)服从高斯分布
- 即,
对于独立同分布的数据点,概率密度的乘积为似然函数
- 通过极大化似然函数,可以得到关于参数w的极大似然解
- 理解:得到的概率最大,就是它
- 极大化似然函数==极小化负对数似然函数
- 极小化负对数似然==极小化损失函数
- 回归问题:
- 忽略后两项==> 最小化MSE损失
- 分类问题:
- ==> 最小化交叉熵损失
高斯分布+熵+损失函数+交叉熵:
接前:为什么损失函数的概率分布是高斯分布?
因为:给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布
概率和熵:p(x)很,则熵大
一件p(x)很小的事情发生了,那么它中间的信息量多大啊。。。
负对数似然的函数==熵的公式(很巧,或者人家数学家就是这么定义)
(即, 损失函数函数最小化的问题 和 熵 挂钩了)
转载:【机器学习】分别从极大似然和熵的角度来看交叉熵损失_Mr_health的博客-CSDN博客
————————————————
版权声明:本文为CSDN博主「WW935707936」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weiwei935707936/article/details/103310594
————————————————
版权声明:本文为CSDN博主「FSilverBullet」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/dongba335/article/details/84888727
对数几率回归
极大似然估计与信息论交叉熵的殊途同归
极大似然估计
相对熵(KL散度)= 信息熵 + 交叉熵
信息熵与交叉熵都带负号
假设两个分类a、b,则p(a)=p(b)=1/2时,信息熵最大,最不确定
贝叶斯学派认为理想分布不是固定的
频率学派认为理想分布是固定的
b=2,单位为bit;b=e,单位为nat
二分类线性判别分析
协方差计算时,前面要有1/m0,1/m1,m0、 m1分别为这么多分类里其中这个分类的样本个数
ω的大小不关心,只关心 ω的方向,因为投影时μ1和μ2的长度不变,投影大小只和θ的大小有关
|μ0|*cos(θ0)、|μ1|*cos(θ1)为投影长度,再放大模长|ω|倍
之所以放大模长倍,是因为方便写成内积的形式
维度为1的列向量,自己对自己做内积
maxJ广义瑞丽商
广义特征值Ax=λBx
此时约束条件h因为不关心 ω大小,因此也可忽略
广义特征值
多分类问题 结合广义瑞丽商
一个多分类的线性判别分析拆为n个二分类线性判别分析
最大广义特征值,ω1
最小广义特征值,ωn
类别不平衡问题
链接:
- 开源内容:https://linklearner.com/datawhale-homepage/#/learn/detail/10
- 开源内容:https://github.com/datawhalechina/pumpkin-book
- B站视频:https://www.bilibili.com/video/BV1Mh411e7VU
来自:西瓜书 南瓜书 datawhale