- 概率图模型(PGM):
- LDA(2013) → \rightarrow → Dynamic Topical Model
- MMSB(2008) → \rightarrow → Social Network
- Neural Network(近期)
- Inference:
- MCMC(Markov Chain Montev Carlo)
- Varational Inference
- Non-parametric Bayesian(非参数的学习方法)
- K-means算法
可以一开始让k = 2,然后把数据灌进去,让模型自己学出k等于几。
怎么实现这种Non-parametric model
可以在LDA上加一层随机过程(stochastic process)
随机过程有:
- Dirichelt Process
- Chinese Restaurant Process
- Indian Buffelt Process
- Stick-breakag process
主题模型(LDA)
- 文本类的模型
- 非监督学习方法,没有标签概念(但是可以加上标签)
- 但是不仅仅应用在文本类上,还有社交类,推荐都可以使用LDA来做
- LDA的输入是多个文档(Data: List of Document),放入LDA之后,可以学习出每个文本的主题。
- Mixed Membership
- LDA
假设:一个文档就是主题的分布
- Uni-Membership
Model Estimation(Bayesian Model)
Bayesian Model:LDA,MMSB, Bayesian NN/LSTM/Bert/Transformer
参数估计领域的三大方法论
- 频率派
MLE
MAP
MLE和MAP的区别就是先验
MLE和MAP的共同特点是这两个模型都会通过学习估算出一个最优解。
- 贝叶斯学派
-
没有参数估计这一步。
-
对它来说最核心的是预测的过程。
-
把空间中所有的 θ \theta θ都考虑进来,在已知的情况下,去预测y的值。考虑加权平均的情况,但是这些 w w w怎么学出来。其实就是 p ( θ ∣ D ) p(\theta|D) p(θ∣D), p ( θ 1 ∣ D ) p(\theta^1|D) p(θ1∣D)就是 w 1 w_1 w1。
-
之前使用的贝叶斯定理不考虑分母。但是这里不可以,因为这里必须要把所有的权重明确计算出来。但是直接计算 p ( D ) p(D) p(D)非常困难。我们可以采用抽样的方法。把每个样本看成一个专家,让每个专家去做一个预测,取平均。为啥这里不像之前加权平均呢,因为在采样的过程中权重越大的采样到的次数越多,所以其实已经考虑到了权重问题。(相同的 θ \theta θ会被重复采样到)【蒙托卡罗采样:独立过程】
-
每一次采样都是相互独立的。独立的方式效率比较低。我其实想要排除掉一些质量不太好的 θ \theta θ(不太好的专家)。有一个专家是比较好的,我们可以认为在 θ \theta θ空间中该专家的周围更有可能选取到质量好的专家(locality)。蒙特卡洛+依赖关系 —> MCMC(在最短时间内找到最好的样本)
-
贝叶斯模型不容易过拟合,适合小数据领域。