看统计学的笔记

a1zhuce

于 2020-12-03 22:26:05 发布

阅读量177

点赞数

分类专栏：统计学习文章标签：统计学

本文链接：https://blog.csdn.net/a1zhuce/article/details/110565981

版权

统计学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2020年12月24日21点28分
这几天论文没看多少，其他花里胡哨的倒折腾了不少。
endnote+Chrome+tampermonkey+金山pdf+不做手机控，waloop+沙拉查词+typora，滴答清单，Xmind+扇贝单词+QQ邮箱+onenote+百度网盘，微云。
2020年12月21日411点22分李航p257 样本均值的公式应该错了吧，符号应该是xk，第k个随机分量才有均值。
2020年12月07日16:11:47 路径结构图中t时刻每个状态都有一个前向概率，t时刻每个状态的前向概率之和等于观测序列的概率。每个状态的前向概率都和前一个时刻的所有状态的前向概率、状态转移概率有关。
路径结构图中t时刻每个状态都有一个后向概率，t时刻每个状态的后向概率都参与了t+1时刻每个状态的生成，所以和t+1时刻每个状态的后向概率、状态转移概率有关。
这里的每个状态用符号表示则是叠加符号和括号里的j变量。
前向概率能计算t时刻的观测序列的概率，而T则是最后一个t，后向概率有点绕，是从最后一个观测符号往前走，初始化的是最后一个观测符号的后向概率，往左边一直走到第一个观测符号，依然是观测序列的概率。

前向后向结合则是两边往中间走，这个中间时刻就是t和t+1。观测概率和前向后向概率有点儿联系不上，但就是和t+1时刻的前向后向概率应该在一块儿，记忆路径结构图时可以把前向后向概率、t+1时刻的观测概率、观测符号vk,ot+1写一块儿。
2020年12月6日11点07分https://zhuanlan.zhihu.com/p/85236423这篇文章把条件一并放在E的下标处真的一下豁然开朗，求期望的对象就只是似然函数，它的构成有三个随机变量，总的来看似然函数只是theta的函数，另外两个隐变量和观测变量视作常数，但如果“局部”地看，可以对其中的隐变量做处理，就是求条件期望。
这篇文章讲得太好了，比李航的书以及其他的一些博文都要好。

2020年12月05日13:58:08 上午快十点半才到。一看Q函数，有了新的理解和疑惑，Q函数是期望，而且是条件期望，条件随机变量函数的期望。按照贝叶斯的观点，有三个随机变量，环境参数、隐变量也就是状态变量、观测变量。EM算法直观的应该是让结果概率也就是观测概率最大化，而式(9.5)却是求出后验概率的期望再M步，Q函数的E步是完全数据的似然函数的期望，然后M步也没有提及怎么导出极大化参数，极大化完全数据的似然函数，但为啥求的是隐变量的期望，隐变量的期望的最大化能够使得观测变量的概率最大?
顺便复习了下条件概率和条件期望，Sheldon Ross把条件概率用大写和小写同时表示，大写作为右下标，表示随机变量，括号里是值P103。连续情况下密度乘以横向x的微元dx后，等于条件概率，所以给定值下条件期望等于随机变量乘以概率再叠加。整半天还是没看懂，条件期望是条件随机变量的函数，而这里是什么随机变量函数的期望，只不过这个随机变量的分布用的条件概率来表示，也不对，完全数据的似然估计已经不能叫做随机变量函数了。。。打住，越来越迷糊了…
重新梳理下，EM算法朴素的想法应该是极大化观测变量的似然估计，也叫做先验估计，不过有一个隐变量，不过不影响先验估计直接是p(x|theta)，隐变量看作黑箱中的中间值即可，而直接极大化这个似然估计比较难，所以退化成联合分布对隐变量求和，极大化完全数据似然函数的期望应该等价于直接极大化完全数据似然函数，都能消除隐变量。似然函数包含三个变量，隐变量，观测变量，环境参数，分布函数，似然函数是联合分布的对数，联合分布是分布函数，**分布函数应该把随机变量的不确定性确定了下来，为什么还能对随机变量求期望呢？**只能理解成，如果分布函数中含有隐变量，那么就能把分布函数看成随机变量了。总结下，Q函数第一步用完全数据的似然函数(分布)求条件期望，第二步展开时的概率权值是隐变量的条件概率。
而这样做的效果是Q函数也就是似然函数的条件期望的极大化等价于似然函数的极大化。当然这里的似然函数是完全数据的分布的对数。
ps:每次看理论总想一探到底，刚才为了理解条件期望，又去看sheldon ross的概率模型和测度论，但这些书一时又看不完，ross的书倒是看过，但是觉得讲得不深入，查了下知乎上的相关说法，又要求一些测度的知识…我觉得没必要了…

2020年12月03日20:28:19 EM算法回顾（后面latex补上））
p176 式(9.1)一直觉得比较奇怪，怎么随机变量y跑到概率p的幂指部分去了，其实是因为y是0-1分布，本次试验y的观测值虽然没有实验无从得知，但可以假设随机变量符号y是一个值，大小是0或者1，于是就可以放到幂指部分了。联合概率在隐变量上叠加消除隐变量的不确定性，得到观测变量的分布，隐变量在三硬币模型中共有两个值，一个是π另一个就是1-π了…

观测数据的表示用行向量的转置来表示…叫啥来着忘了，但是这是惯有的表示法…一个做了n次试验，所以这个向量共有n个值…n个随机变量的分布的表示和单个随机变量分布的表示没啥区别，所以式(9.2)简单地把小写符号换成了大写…但由于是联合分布，所以是单个分布的乘积形式…

这里直接给出了E步和M步的迭代公式，求解观测值来自哪个状态概率的这个公式有个上标和下标，上标是迭代次数，下标是第几个观测值，也就是说这个观测值在运算时会反复代进去运算，初看这个公式的时候还觉得很奇怪这个j是个啥啊，现在明白了一些了。

这里的似然函数就是n次试验的联合分布，j在时域上就是离散的时刻？联合分布的形式就是概率乘积，为啥取对数忘了…

这里的条件分布是已知观测值求隐状态的概率，一看到条件分布就想起先验分布，后验分布，全概率，贝叶斯。大道争锋里少清祖师有个大招，效果是“倒因为果”，也就是说因果等价了，可以理解为后验概率等于先验估计吗，那么结果的概率也就是贝叶斯条件概率公式中作为分母以全概率形式表示的部分，等于先验概率了？还是说先验概率等于后验概率，那么先验估计就等于结果发生的概率了，也就是因果分离独立，但应该不是，倒因为果应该是说果导致因的概率等于因导致果的概率，就是后验概率等于先验估计。

式(9.9)和具体的式(9.5)的做法不太一样，式(9.5)只是迭代地用当前观测值来求后验概率的期望，至于怎么由后验概率导出参数估计的公式有点忘了。而式(9.9)是把后验概率和联合概率相乘再在隐变量上叠加的Q函数导出的参数估计吧，怎么由Q函数导出参数估计的公式没提，只是argmax…

Q函数是个期望，随机变量是隐变量Z，随机变量函数是完全数据或者观测变量、隐变量的联合数据的对数似然函数，而且Q函数是个条件期望，给定的条件是观测数据和当前的参数迭代值，当然已知的东西只有这个了。

a1zhuce

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
看统计学的笔记

2020年12月03日20:28:19 EM算法回顾（后面latex补上））p176 式(9.1)一直觉得比较奇怪，怎么随机变量y跑到概率p的幂指部分去了，其实是因为y是0-1分布，本次试验y的观测值虽然没有实验无从得知，但可以假设随机变量符号y是一个值，大小是0或者1，于是就可以放到幂指部分了。联合概率在隐变量上叠加消除隐变量的不确定性，得到观测变量的分布，隐变量在三硬币模型中共有两个值，一个是π另一个就是1-π了…观测数据的表示用行向量的转置来表示…叫啥来着忘了，但是这是惯有的表示法…一个做了n次
复制链接

扫一扫

专栏目录