【西瓜书南瓜书第三章线性模型】

目录

一元线性预测误差

有序的多值离散特征、无序的多值离散特征

最小二乘估计与极大似然估计的殊途同归

    最小二成估计

      极大似然估计

极大似然估计

向量化求解ω,便于使用python的NumPy库

 默认分母布局

广义线性模型

 最大熵、交叉熵、极大似然估计

 深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解

整体目的:

贝叶斯概率:

极大似然 与 极小负对数似然:

对数几率回归

极大似然估计与信息论交叉熵的殊途同归

相对熵(KL散度)= 信息熵 + 交叉熵

贝叶斯学派认为理想分布不是固定的

频率学派认为理想分布是固定的

 二分类线性判别分析

广义特征值

 多分类问题 结合广义瑞丽商

类别不平衡问题 

一元线性预测误差

线性回归:预测误差平行于y轴:实际值y-预测值y‘(y'在预测直线上) 

均方误差:所有线性回归的预测误差之和,为均方误差

最小二乘法损失函数:每个实际值于预测值的均方误差的平方和

正交回归:预测误差,法向垂直的红线

argmin使得式子取得最小值的变量的取值

 


有序的多值离散特征、无序的多值离散特征


最小二乘估计与极大似然估计的殊途同归

当要拟合的随机变量的样本之间独立,且噪声服从正态分布时,最小二乘假设和极大似然假设是等价的。

    最小二成估计

     极大似然估计

使得观测样本出现概率最大的分布就是待求分布;

也即使得联合概率(似然函数)L(θ)取到最大值的θ*,θ*为θ的估计值

θ:当为高斯分布,有两个待估计的参数值:是μ、σ;当为伯努利分布,有一个待估

极大似然估计

 y为正态分布中的x,(wx+b)为μ

 

这里的凸函数与高数里是反的

 

 向量化求解ω,便于使用python的NumPy库

 

 默认分母布局

广义线性模型

 最大熵、交叉熵、极大似然估计

联合熵:

最大熵原理 

最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机变量的分布是很难预测的,一般只能测得其各种统计量(如数学期望,方差)或者已知某些限定条件的值(如峰值、取值个数等),符合测得这些值得分布可以有多种,通常其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽然有一定的主观性,但是可以认为是最符合客观情况的一种选择。在投资时候常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。数学上称之为最大熵原理。

那么,什么是熵呢?简单来说,熵就是对平均不确定性的度量:

由以上公式可知,熵是随机变量不确定性的度量,不确定性越大,熵就越大;当随机变量变成一个确定值的时候,熵就变成了0.需要指出的是均匀分布是最不确定的分布。

最大熵的一般模型:

其中P={p|p是X上满足条件的概率分布}

 深度学习基础----贝叶斯概率+极大似然+损失函数+熵+梯度+反向传播:更新参数过程连贯地理解

  1. 贝叶斯概率 -> 极大似然
  2. 极大似然 -> 损失函数
  3. 极大似然+损失函数  -> 熵
  4. 损失函数->梯度
  5. 梯度-> 反向传播
  6. 梯度+反向传播 ->  参数

整体目的:

  • 拟合函数
  • (分类问题:也可以理解为拟合函数本身,最后只不过是多个神经元输出,谁最大就分到哪一类)

贝叶斯概率:

  • 即,后验=先验×似然函数
  • p(w): 参数的先验分布
  • p(D|w): 
    • 似然函数
    • 关于w的函数
    • 给定参数w的情况下,训练数据D的可能性
  • p(w|D): 
    • 后验分布
  • 极大似然 与 极小负对数似然:

    • 对于所有数据点x, 数据值与预测值之间的误差(损失函数)服从高斯分布
    • 即,

    对于独立同分布的数据点,概率密度的乘积为似然函数

  • 通过极大化似然函数,可以得到关于参数w的极大似然解
    • 理解:得到的概率最大,就是它
  • 极大化似然函数==极小化负对数似然函数
  • 极小化负对数似然==极小化损失函数
    • 回归问题:
    • ​​​​​忽略后两项==> 最小化MSE损失
    • 分类问题:
    • ==> 最小化交叉熵损失

     高斯分布+熵+损失函数+交叉熵:
    接前:为什么损失函数的概率分布是高斯分布? 
    因为:给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布
    概率和熵:p(x)很,则熵大
    一件p(x)很小的事情发生了,那么它中间的信息量多大啊。。。
    ​​​​​​​负对数似然的函数==熵的公式(很巧,或者人家数学家就是这么定义)
    ​​​​​​​(即, 损失函数函数最小化的问题 和 熵 挂钩了)

转载:【机器学习】分别从极大似然和熵的角度来看交叉熵损失_Mr_health的博客-CSDN博客

————————————————
版权声明:本文为CSDN博主「WW935707936」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weiwei935707936/article/details/103310594
————————————————
版权声明:本文为CSDN博主「FSilverBullet」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/dongba335/article/details/84888727

对数几率回归

极大似然估计与信息论交叉熵的殊途同归

极大似然估计

 

 

相对熵(KL散度)= 信息熵 + 交叉熵

信息熵与交叉熵都带负号

假设两个分类a、b,则p(a)=p(b)=1/2时,信息熵最大,最不确定

贝叶斯学派认为理想分布不是固定的

频率学派认为理想分布是固定的

 b=2,单位为bit;b=e,单位为nat

 

 二分类线性判别分析

协方差计算时,前面要有1/m0,1/m1,m0、 m1分别为这么多分类里其中这个分类的样本个数

 

 ω的大小不关心,只关心 ω的方向,因为投影时μ1和μ2的长度不变,投影大小只和θ的大小有关

 

|μ0|*cos(θ0)、|μ1|*cos(θ1)为投影长度,再放大模长|ω|倍

之所以放大模长倍,是因为方便写成内积的形式

 

维度为1的列向量,自己对自己做内积

 maxJ广义瑞丽商

 

广义特征值Ax=λBx

此时约束条件h因为不关心 ω大小,因此也可忽略

广义特征值

 

 

 多分类问题 结合广义瑞丽商

一个多分类的线性判别分析拆为n个二分类线性判别分析

最大广义特征值,ω1

最小广义特征值,ωn

 

 

 

 

 

类别不平衡问题 

 

链接:

来自:西瓜书 南瓜书 datawhale

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值