贝叶斯模型核心思想

  1. 概率图模型(PGM):
  • LDA(2013) → \rightarrow Dynamic Topical Model
  • MMSB(2008) → \rightarrow Social Network
  • Neural Network(近期)
  1. Inference:
  • MCMC(Markov Chain Montev Carlo)
  • Varational Inference
  1. Non-parametric Bayesian(非参数的学习方法)
  • K-means算法

可以一开始让k = 2,然后把数据灌进去,让模型自己学出k等于几。

怎么实现这种Non-parametric model

可以在LDA上加一层随机过程(stochastic process)

随机过程有:

  1. Dirichelt Process
  2. Chinese Restaurant Process
  3. Indian Buffelt Process
  4. Stick-breakag process

主题模型(LDA)

  • 文本类的模型
  • 非监督学习方法,没有标签概念(但是可以加上标签)
  • 但是不仅仅应用在文本类上,还有社交类,推荐都可以使用LDA来做
  • LDA的输入是多个文档(Data: List of Document),放入LDA之后,可以学习出每个文本的主题。
    在这里插入图片描述
  • Mixed Membership
    • LDA

假设:一个文档就是主题的分布

在这里插入图片描述

  • Uni-Membership

Model Estimation(Bayesian Model)

Bayesian Model:LDA,MMSB, Bayesian NN/LSTM/Bert/Transformer

参数估计领域的三大方法论

  1. 频率派
MLE
MAP

MLE和MAP的区别就是先验
MLE和MAP的共同特点是这两个模型都会通过学习估算出一个最优解。
在这里插入图片描述

  1. 贝叶斯学派
  • 没有参数估计这一步。

  • 对它来说最核心的是预测的过程。

  • 把空间中所有的 θ \theta θ都考虑进来,在已知的情况下,去预测y的值。考虑加权平均的情况,但是这些 w w w怎么学出来。其实就是 p ( θ ∣ D ) p(\theta|D) p(θD) p ( θ 1 ∣ D ) p(\theta^1|D) p(θ1D)就是 w 1 w_1 w1
    在这里插入图片描述

  • 之前使用的贝叶斯定理不考虑分母。但是这里不可以,因为这里必须要把所有的权重明确计算出来。但是直接计算 p ( D ) p(D) p(D)非常困难。我们可以采用抽样的方法。把每个样本看成一个专家,让每个专家去做一个预测,取平均。为啥这里不像之前加权平均呢,因为在采样的过程中权重越大的采样到的次数越多,所以其实已经考虑到了权重问题。(相同的 θ \theta θ会被重复采样到)【蒙托卡罗采样:独立过程】
    在这里插入图片描述

  • 每一次采样都是相互独立的。独立的方式效率比较低。我其实想要排除掉一些质量不太好的 θ \theta θ(不太好的专家)。有一个专家是比较好的,我们可以认为在 θ \theta θ空间中该专家的周围更有可能选取到质量好的专家(locality)。蒙特卡洛+依赖关系 —> MCMC(在最短时间内找到最好的样本)
    在这里插入图片描述

  • 贝叶斯模型不容易过拟合,适合小数据领域。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值