【西瓜书南瓜书第三章线性模型】

inf-inf

已于 2022-08-24 22:07:34 修改

阅读量610

点赞数

分类专栏：西瓜书笔记文章标签：算法人工智能机器学习

于 2022-08-22 02:51:41 首次发布

原文链接：https://github.com/datawhalechina/pumpkin-book

版权

西瓜书笔记专栏收录该内容

10 篇文章 2 订阅

订阅专栏

目录

一元线性预测误差

有序的多值离散特征、无序的多值离散特征

最小二乘估计与极大似然估计的殊途同归

最小二成估计

极大似然估计

极大似然估计

向量化求解ω，便于使用python的NumPy库

默认分母布局

广义线性模型

最大熵、交叉熵、极大似然估计

深度学习基础----贝叶斯概率＋极大似然＋损失函数＋熵＋梯度＋反向传播：更新参数过程连贯地理解

整体目的：

贝叶斯概率：

极大似然　与　极小负对数似然：

对数几率回归

极大似然估计与信息论交叉熵的殊途同归

相对熵（KL散度）= 信息熵 + 交叉熵

贝叶斯学派认为理想分布不是固定的

频率学派认为理想分布是固定的

二分类线性判别分析

广义特征值

多分类问题结合广义瑞丽商

类别不平衡问题

一元线性预测误差

线性回归：预测误差平行于y轴：实际值y-预测值y‘（y'在预测直线上）

均方误差：所有线性回归的预测误差之和，为均方误差

最小二乘法损失函数：每个实际值于预测值的均方误差的平方和

正交回归：预测误差，法向垂直的红线

argmin使得式子取得最小值的变量的取值

有序的多值离散特征、无序的多值离散特征

最小二乘估计与极大似然估计的殊途同归

当要拟合的随机变量的样本之间独立，且噪声服从正态分布时，最小二乘假设和极大似然假设是等价的。

最小二成估计

极大似然估计

使得观测样本出现概率最大的分布就是待求分布；

也即使得联合概率（似然函数）L(θ)取到最大值的θ*，θ*为θ的估计值

θ：当为高斯分布，有两个待估计的参数值：是μ、σ；当为伯努利分布，有一个待估

极大似然估计

y为正态分布中的x，（wx+b）为μ

这里的凸函数与高数里是反的

向量化求解ω，便于使用python的NumPy库

默认分母布局

广义线性模型

最大熵、交叉熵、极大似然估计

联合熵：

最大熵原理

最大熵原理是一种选择随机变量统计特性最符合客观情况的准则，也称为最大信息原理。随机变量的分布是很难预测的，一般只能测得其各种统计量（如数学期望，方差）或者已知某些限定条件的值（如峰值、取值个数等），符合测得这些值得分布可以有多种，通常其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布，是一种有效的处理方法和准则。这种方法虽然有一定的主观性，但是可以认为是最符合客观情况的一种选择。在投资时候常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。数学上称之为最大熵原理。

那么，什么是熵呢？简单来说，熵就是对平均不确定性的度量：

由以上公式可知，熵是随机变量不确定性的度量，不确定性越大，熵就越大；当随机变量变成一个确定值的时候，熵就变成了0.需要指出的是均匀分布是最不确定的分布。

最大熵的一般模型：

其中P={p|p是X上满足条件的概率分布}

深度学习基础----贝叶斯概率＋极大似然＋损失函数＋熵＋梯度＋反向传播：更新参数过程连贯地理解

贝叶斯概率－> 极大似然
极大似然 -> 损失函数
极大似然＋损失函数 -> 熵
损失函数－>梯度
梯度－> 反向传播
梯度＋反向传播　-> 参数

整体目的：

拟合函数
（分类问题：也可以理解为拟合函数本身，最后只不过是多个神经元输出，谁最大就分到哪一类）

贝叶斯概率：

即，后验＝先验×似然函数
p(w): 参数的先验分布
p(D|w):
- 似然函数
- 关于w的函数
- 给定参数w的情况下，训练数据D的可能性
p(w|D):　
- 后验分布
极大似然　与　极小负对数似然：
- 对于所有数据点x, 数据值与预测值之间的误差（损失函数）服从高斯分布
- 即，
对于独立同分布的数据点，概率密度的乘积为似然函数
通过极大化似然函数，可以得到关于参数w的极大似然解
- 理解：得到的概率最大，就是它
极大化似然函数＝＝极小化负对数似然函数
极小化负对数似然＝＝极小化损失函数
- 回归问题：
- 忽略后两项＝＝> 最小化MSE损失
- 分类问题：
- ＝＝> 最小化交叉熵损失
高斯分布＋熵＋损失函数＋交叉熵：
接前：为什么损失函数的概率分布是高斯分布？　
因为：给定均值和方差的约束下，交叉信息熵最大的分布是高斯分布
概率和熵：p(x)很，则熵大
一件p(x)很小的事情发生了，那么它中间的信息量多大啊。。。
负对数似然的函数＝＝熵的公式（很巧，或者人家数学家就是这么定义）
（即，　损失函数函数最小化的问题　和　熵　挂钩了）

转载：【机器学习】分别从极大似然和熵的角度来看交叉熵损失_Mr_health的博客-CSDN博客

————————————————
版权声明：本文为CSDN博主「WW935707936」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weiwei935707936/article/details/103310594
————————————————
版权声明：本文为CSDN博主「FSilverBullet」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/dongba335/article/details/84888727

对数几率回归

极大似然估计与信息论交叉熵的殊途同归

极大似然估计

相对熵（KL散度）= 信息熵 + 交叉熵

信息熵与交叉熵都带负号

假设两个分类a、b，则p(a)=p(b)=1/2时，信息熵最大，最不确定

贝叶斯学派认为理想分布不是固定的

频率学派认为理想分布是固定的

b=2，单位为bit；b=e，单位为nat

二分类线性判别分析

协方差计算时，前面要有1/m0，1/m1，m0、 m1分别为这么多分类里其中这个分类的样本个数

ω的大小不关心，只关心 ω的方向，因为投影时μ1和μ2的长度不变，投影大小只和θ的大小有关

|μ0|*cos(θ0)、|μ1|*cos(θ1)为投影长度，再放大模长|ω|倍

之所以放大模长倍，是因为方便写成内积的形式

维度为1的列向量，自己对自己做内积

maxJ广义瑞丽商

广义特征值Ax=λBx

此时约束条件h因为不关心 ω大小，因此也可忽略

广义特征值

多分类问题结合广义瑞丽商

一个多分类的线性判别分析拆为n个二分类线性判别分析

最大广义特征值，ω1

最小广义特征值，ωn

类别不平衡问题

链接：

来自：西瓜书南瓜书 datawhale

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。