主题模型

主题模型是一种非监督学习技术,主要用于自然语言处理,例如文本分类。关键概念包括Gamma函数、共轭先验、二项分布、多项式分布、Beta分布、狄利克雷分布以及LDA模型。LDA模型基于对称狄利克雷分布的词分布和主题分布,通过Gibbs采样进行参数估计。
摘要由CSDN通过智能技术生成

主题模型(Topic Model)

一.什么是主题模型

这个主题模型想要充分了解,首先得把朴素贝叶斯的很多东西都给搞明白,这部分的内容其实是相辅相成的。

主题模型,首先需要明确:是一种非监督学习模型,它主要应用的场景,大多数集中在自然语言处理上。比如说:对文本进行分类;也可以应用在其他的场景,比如说生物信息学等。

查了一通资料,如果想要学好主题模型,那么,需要了解主题模型的如下要点:

  • 一个函数:gamma函数。
  • 一个概念和一个理念:共轭先验和贝叶斯框架。
  • 四个分布:二项分布、多项分布、beta分布、狄利克雷(Dirichlet)分布。
  • 两个模型:pLSA、LDA。
  • 一个采样:Gibbs采样

下面的内容,都是基于这些要点展开的。

二.主题模型要点

1. Gamma函数

上过大学本科,学过高数的,考过理工科研究生的童鞋,对这个应该都不陌生,其实就是一个公式:
Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t d t = ( x − 1 ) ! \Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}dt = (x-1)! Γ(x)=0+tx1etdt=(x1)!
并且有:
Γ ( x ) = ( x − 1 ) ⋅ Γ ( x − 1 ) \Gamma(x) = (x-1)\cdot\Gamma(x-1) Γ(x)=(x1)Γ(x1)
因此,当x是整数的时候:
Γ ( x ) = ( x − 1 ) ! \Gamma(x) = (x-1)! Γ(x)=(x1)!

2. 共轭先验

我们之前在介绍贝叶斯网络的时候,曾经在朴素贝叶斯部分捎带介绍了一下先验概率和后验概率。也写过一个式子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4fOjzaE8-1621569037476)(/home/johnny/桌面/我的笔记/机器学习强化/主题模型/6.png)]

其中X为特征,Y为类别。由于一堆文档中,X发生的概率是完全可以计算出来的,即:P(x)已知,所以,我们大可以值考虑分子部分。也就是说:P(Y|X)正比于P(x|y)P(y)。

如果后验概率P(X|Y) 和先验概率P(Y),这两个竟然满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布

3. 四个分布

3.1 二项分布

之所以先要介绍二项分布,那是因为往后的多项式分布,beta分布,狄利克雷分布都以这个为基础,是二项分布的一个推广。

二项分布是概率论当中的一个最基本的分布问题,他最开始涉及到事情就是:抛硬币,正反面朝上的次数,学过概率论的小伙伴对二项分布的表达式并不陌生。

抛一个硬币,正面朝上的概率为p,那么相应的,反面朝上的概率就是(1-p)假设抛硬币n次,其中k次正面朝上的概率是:
P { X = k } = C n k p k

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值