贝叶斯模型核心思想

最新推荐文章于 2023-12-27 17:59:10 发布

圣托里尼的日落啊~

最新推荐文章于 2023-12-27 17:59:10 发布

阅读量1k

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/qq_39504764/article/details/90730147

版权

5 篇文章 0 订阅

订阅专栏

可以一开始让k = 2,然后把数据灌进去，让模型自己学出k等于几。

怎么实现这种Non-parametric model

可以在LDA上加一层随机过程(stochastic process)

随机过程有：

Dirichelt Process
Chinese Restaurant Process
Indian Buffelt Process
Stick-breakag process

假设：一个文档就是主题的分布

在这里插入图片描述

Bayesian Model:LDA,MMSB, Bayesian NN/LSTM/Bert/Transformer

参数估计领域的三大方法论

MLE和MAP的区别就是先验
MLE和MAP的共同特点是这两个模型都会通过学习估算出一个最优解。

没有参数估计这一步。
对它来说最核心的是预测的过程。
把空间中所有的 $\theta$ 都考虑进来，在已知的情况下，去预测y的值。考虑加权平均的情况，但是这些 $w$ 怎么学出来。其实就是 $p(\theta|D)$ ， $p(\theta^1|D)$ 就是 $w_1$ 。
之前使用的贝叶斯定理不考虑分母。但是这里不可以，因为这里必须要把所有的权重明确计算出来。但是直接计算 $p (D)$ 非常困难。我们可以采用抽样的方法。把每个样本看成一个专家，让每个专家去做一个预测，取平均。为啥这里不像之前加权平均呢，因为在采样的过程中权重越大的采样到的次数越多，所以其实已经考虑到了权重问题。(相同的 $\theta$ 会被重复采样到）【蒙托卡罗采样：独立过程】
每一次采样都是相互独立的。独立的方式效率比较低。我其实想要排除掉一些质量不太好的 $\theta$ (不太好的专家)。有一个专家是比较好的，我们可以认为在 $\theta$ 空间中该专家的周围更有可能选取到质量好的专家(locality)。蒙特卡洛+依赖关系 —> MCMC(在最短时间内找到最好的样本)
贝叶斯模型不容易过拟合，适合小数据领域。

关注