【AI】_06_Topic Models(主题模型)


 


 

【一】 Frequentist VS Bayesian(统计学两大领域)

 

【1.1】 Frequentist(频次)
  • 数据是 重复的 随机样本,因为有重复,所以才有了 frequency 这个概念
  • 重复的过程中,潜在的 参数 是恒定的

 

【1.2】 Bayesian(贝叶斯)
  • 数据是观察到的 真实的 样本
  • 参数 未知,且用概率的方式描述,也就是 P ( θ ) \bm { P(θ) } P(θ) 服从某个 概率分布
  • 一般采用 采样 的方式来选取 θ \bm θ θ,如 蒙特卡洛采样
  • Independent Sampling(独立采样)
  • Sequential Sampling(序列采样,MCMC的来源)

 

【1.3】 二者的区别

 

举个例子,假设你有一个硬币,抛出去 head 朝上的概率为 θtail 朝上为 1-θ,θ 未知,如果你抛了 14 次,10 次 head 朝上,试估计 θ

 

  • Frequentist

θ = 10 14 = 0.714 θ = \frac { 10 } { 14 } = 0.714 θ=1410=0.714

 

  • Bayesian

P ( θ   ∣   D a t a ) = P ( D a t a   ∣   θ ) ⋅ P ( θ ) P ( D a t a )   ∝   P ( D a t a   ∣   θ ) ⋅ P ( θ ) P(θ \,|\, Data) = \frac { \bm \red { P( Data \,|\, θ) } \cdot \bm \red { P( θ) } } { P( Data ) } \,\bm \propto\, \bm \red { P( Data \,|\, θ) } \cdot \bm \red { P( θ) } P(θData)=P(Data)P(Dataθ)P(θ)P(Dataθ)P(θ)

P ( D a t a   ∣   θ ) = C 14 10 ⋅ θ 10 ⋅ ( 1 − θ ) 4   ∝   θ 10 ⋅ ( 1 − θ ) 4 ,        P ( θ )    服 从 某 个 概 率 分 布 \bm \red { P( Data \,|\, θ) } = C _ { 14 } ^ { 10 } \cdot θ ^ { 10 } \cdot (1-θ) ^ { 4 } \,\bm \propto\, θ^ { 10 } \cdot (1-θ) ^ { 4 }, \;\;\; \bm \red { P( θ) } \;服从某个概率分布 P(Dataθ)=C1410θ10(1θ)4θ10(1θ)4,P(θ)

 


 

【二】 Topic Models(主题模型)

 

主题模型Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型

  • 主题模型属于 贝叶斯模型Fully Bayesian),也可以看作是集成了无穷多的模型
  • 主题模型是 生成模型,以 无监督 的方式来学习
  • 主题模型属于 Mixed Membership 模型
  • 对于主题模型的推导需要近似算法如 MCMC

目前最流行的技术主要有四种:潜在语义分析LSA)、概率潜在语义分析pLSA)、潜在狄利克雷分布LDA),以及最新的、基于深度学习的 lda2vec,但所有主题模型都基于相同的基本假设:每个文档包含多个主题;每个主题包含多个单词

 

【2.1】 LSA(潜在语义分析)

主题建模的基础技术之一

第一步是生成 文档-术语 矩阵。如果在词汇表中给出 m 个文档和 n 个单词,我们可以构造一个 m×n 的矩阵 A,其中每行代表一个文档,每列代表一个单词。一旦拥有 文档-术语 矩阵 A,我们就可以开始思考潜在 主题。问题在于:A 极有可能非常稀疏、噪声很大,并且在很多维度上非常冗余。因此,为了找出能够捕捉 单词文档 关系的少数潜在主题,我们希望能降低矩阵 A 的维度。这种降维可以使用 截断SVD 来执行。

  • 核心思想是把我们所拥有的 文档-术语 矩阵 分解成相互独立的 文档-主题 矩阵和 主题-术语 矩阵

 

【2.2】 pLSA(概率潜在语义分析)

pLSA采取概率方法替代 SVD 以解决问题

  • 其核心思想是找到一个潜在主题的 概率模型,该模型可以生成我们在 文档-术语 矩阵中观察到的数据。特别是,我们需要一个模型 P(D,W),使得对于任何文档 d 和单词 wP(d,w) 能对应于 文档-术语 矩阵中的那个条目。具体算法请查看pLSA词条。

 

【2.3】 LDA(潜在狄利克雷分布)

LDA 是 pLSA 的贝叶斯版本

主题分布 θ \bm \red { \theta } θ = D i r ( α ) \bm \red { Dir(α) } Dir(α) )和 词分布 ϕ \bm \red { \phi } ϕ = D i r ( β ) \bm \red { Dir(β) } Dir(β) )都由 狄利克雷分布 得出,该分布加和为 1,正好符合要求

  • 它使用 狄利克雷先验 来处理 文档-主题单词-主题 分布,从而有助于更好地泛化
  • LDA 无疑是最受欢迎(且通常来说是最有效的)主题建模技术

 

【2.4】 lad2vec(基于word2vec)

文档 层面,我们现在知道如何将文本表示为主题的混合。在 单词 级别上,我们通常使用诸如 word2vec 之类的东西来获取其向量表征。lda2vecword2vecLDA 的扩展,它共同学习 单词文档主题 向量。lda2vec 专门在 word2vecskip-gram 模型基础上建模,以生成单词向量。skip-gramword2vec 本质上就是一个 神经网络,通过利用输入单词预测周围上下文词语的方法来学习词嵌入。

 


 

【三】 Gibbs Sampling(吉布斯采样)

 

θ ,   ϕ ,   z    ∼    P ( θ ,   ϕ ,   z   ∣   α ,   β ,   w ) \bm { \theta , \, \phi , \, z } \;\sim\; \bm { P(\theta , \, \phi , \, z \,|\, \alpha , \, \beta , \, w) } θ,ϕ,zP(θ,ϕ,zα,β,w):其中, ( θ ,   ϕ ,   z ) ( \theta , \, \phi , \, z ) (θ,ϕ,z) 已知, ( α ,   β ,   w ) ( \alpha , \, \beta , \, w ) (α,β,w) 未知, P P P 称为后验概率

 

  • 分开采样

θ    ∼    P ( θ   ∣   α ,   β ,   w ,   ϕ ,   z ) \bm \red { \theta } \;\sim\; \bm { P(\theta \,|\, \alpha , \, \beta , \, w , \, \red \phi , \, \red z) } θP(θα,β,w,ϕ,z)

ϕ    ∼    P ( ϕ   ∣   α ,   β ,   w ,   θ ,   z ) \bm \red { \phi } \;\sim\; \bm { P( \phi \,|\, \alpha , \, \beta , \, w , \, \red \theta , \, \red z) } ϕP(ϕα,β,w,θ,z)

z    ∼    P ( z   ∣   α ,   β ,   w ,   θ ,   ϕ ) \bm \red { z } \;\sim\; \bm { P( z \,|\, \alpha , \, \beta , \, w , \, \red \theta , \, \red \phi) } zP(zα,β,w,θ,ϕ)

 

【3.1】 θ \bm \red { \theta } θ(主题分布)

[ Example k \bm k k=4, α = ( 0.1 , 0.1 , 0.1 , 0.1 ) \bm \alpha=(0.1, 0.1, 0.1, 0.1) α=(0.1,0.1,0.1,0.1) α n e w = ( 0.1 + n i 1 , 0.1 + n i 2 , 0.1 + n i 3 , 0.1 + n i 4 ) \bm { \alpha_{new} } = (0.1+n_{i1}, 0.1+n_{i2}, 0.1+n_{i3}, 0.1+n_{i4}) αnew=(0.1+ni1,0.1+ni2,0.1+ni3,0.1+ni4) ]

θ i    ∼    D i r ( α + ∑ i = 1 N i I ( z i j = k ) ) \bm \red { \theta_i } \;\sim\; Dir(\alpha+\sum _ { i = 1 } ^ { N _ { i } } I ( z _ { i j } = k )) θiDir(α+i=1NiI(zij=k))

 

【3.2】 ϕ \bm \red { \phi } ϕ(词分布)

. . . . . .   略 ( 同 理 ) ...... \, 略 (同理) ......()

 

【3.3】 z \bm \red { z } z(主题)

P   ( z i j = k )    ∼    e x p   (   l o g   θ i k + l o g   ϕ k , w i j ) \bm \red { P \,( z_{ij}=k ) } \;\sim\; exp \,(\, log \, \theta _ { i k } + log \, \phi_{ k,w_{ij} }) P(zij=k)exp(logθik+logϕk,wij)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值