白板机器学习笔记 P39-P45 指数族分布

视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=39
笔记地址:https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/ioggkd

P39 指数族分布1/2 - 背景
本节内容:主要给出了指数族分布的数学形式。并简要引出了指数族分布的三大特征:充分统计量、共轭、最大熵(无信息推断)。还说明了指数族分布的三大应用场景:广义线性模型、概率图模型、变分推断。
在这里插入图片描述
P41 指数族分布3 - 高斯分布的指数族形式
本节内容:将高斯分布化成指数族形式 P(x|η) = h(x)·exp(ηTф(x)-A(η))。化简过程中最重要的思想是将含自变量x和含参数η的项分开。含x和η的项都能写成独立的形式。
在这里插入图片描述
P42 指数族分布4 - 对数配分函数与充分统计量
注意:P(x|η) = h(x)·exp(ηTф(x)-A(η)) 式中的exp(-A(η))可以拿到等式前边来,变成X分之一的形式。
本节内容:接着由P(x|η)是概率密度函数,对x求积分等于1,列出等式。因为exp(A(η))与x无关,移项后左右求导,推出A’(η)的表达形式恰好就是以概率分布P(x|η)求出的充分统计量ф(x)的期望。A’(η)是ф(x)的方差。本节最主要的思想是:证明指数族分布中自变量x和参数η之间存在联系,联系就是上边推出的A(η)的一阶导是ф(x)的期望,二阶导是ф(x)的方差。
在这里插入图片描述
P43 指数族分布5 - 极大似然估计与充分统计量
本节内容:根据极大似然估计将 η 表示成 P(x|η) 连乘的形式。左右求导为0,化简出下图中红框部分的结果。可以看出 A’(ηMLE) 仍然是ф(x)的期望,与上节结论一样,只不过极大似然估计引入了独立同分布假设,所以这里的期望不再是连续的积分,而是变成了离散并且等可能的形式。只与ф(x)有关,也即这时可以扔掉所有数据X了,只用ф(x)即可得出 η,这就是为什么ф(x)被称为充分统计量的原因。
在这里插入图片描述
注意:本节独立同分布假设主要体现在对η求导的计算中,这里A’(η)中的参数η是由特定xi的充分统计量ф(x)估计出来的,应该是不同的。但这里我们认为A’(η)是一个常量,可以被提出来表示成N倍的形式,其实就是利用了独立同分布的假设。在这种假设下,事件是根据一个恒定不变的概率分布来发生的,所以跟η有关的量都应该是常量,代表了一种终极规律。这也让我想到了频率派和贝叶斯派的区别,频率派主要就是这种思想,用极大似然估计时假定概率分布恒定;贝叶斯派则将参数η作为变量,是随着观测的结果进行动态调整的,也即我们是去逼近这个终极规律,而不是一开始就假设出终极规律的符号进行运算。
在这里插入图片描述
P44 指数族分布6 - 最大熵角度(1)
本节内容:用拉格朗日乘子法优化了信息熵的定义式。证明了在任何信息都不知道的情况下,等可能事件的熵最大。(因为熵就代表不确定程度,每种结果发生的可能性相同时,最不能够确定发生的是哪个事件了,也即这时事件发生类型的不确定程度最大)

对最大熵为什么要最大化熵的一点理解
https://blog.csdn.net/qq_40367091/article/details/114684682

在这里插入图片描述
P45 指数族分布7 - 最大熵角度(2)
本节内容:前半部分展示了如何将数据变成经验分布,进而变成充分统计量,并加入到最大熵模型的约束条件中去。后半部分用拉格朗日乘子法对带条件约束的最大熵模型进行优化,得到的最终形式也是指数族分布。
注意:充分统计量不一定是一个数,也可能是一组统计信息。泛函
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值