【一】 Frequentist VS Bayesian(统计学两大领域)
【1.1】 Frequentist(频次)
- 数据是 重复的 随机样本,因为有重复,所以才有了 frequency 这个概念
- 重复的过程中,潜在的 参数 是恒定的
【1.2】 Bayesian(贝叶斯)
- 数据是观察到的 真实的 样本
- 参数 未知,且用概率的方式描述,也就是 P ( θ ) \bm { P(θ) } P(θ) 服从某个 概率分布
- 一般采用 采样 的方式来选取 θ \bm θ θ,如 蒙特卡洛采样
- Independent Sampling(独立采样)
- Sequential Sampling(序列采样,MCMC的来源)
【1.3】 二者的区别
举个例子,假设你有一个硬币,抛出去 head 朝上的概率为 θ,tail 朝上为 1-θ,θ 未知,如果你抛了 14 次,10 次 head 朝上,试估计 θ
- Frequentist:
θ = 10 14 = 0.714 θ = \frac { 10 } { 14 } = 0.714 θ=1410=0.714
- Bayesian:
P ( θ ∣ D a t a ) = P ( D a t a ∣ θ ) ⋅ P ( θ ) P ( D a t a ) ∝ P ( D a t a ∣ θ ) ⋅ P ( θ ) P(θ \,|\, Data) = \frac { \bm \red { P( Data \,|\, θ) } \cdot \bm \red { P( θ) } } { P( Data ) } \,\bm \propto\, \bm \red { P( Data \,|\, θ) } \cdot \bm \red { P( θ) } P(θ∣Data)=P(Data)P(Data∣θ)⋅P(θ)∝P(Data∣θ)⋅P(θ)
P ( D a t a ∣ θ ) = C 14 10 ⋅ θ 10 ⋅ ( 1 − θ ) 4 ∝ θ 10 ⋅ ( 1 − θ ) 4 , P ( θ ) 服 从 某 个 概 率 分 布 \bm \red { P( Data \,|\, θ) } = C _ { 14 } ^ { 10 } \cdot θ ^ { 10 } \cdot (1-θ) ^ { 4 } \,\bm \propto\, θ^ { 10 } \cdot (1-θ) ^ { 4 }, \;\;\; \bm \red { P( θ) } \;服从某个概率分布 P(Data∣θ)=C1410⋅θ10⋅(1−θ)4∝θ10⋅(1−θ)4,P(θ)服从某个概率分布
【二】 Topic Models(主题模型)
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型
- 主题模型属于 贝叶斯模型(Fully Bayesian),也可以看作是集成了无穷多的模型
- 主题模型是 生成模型,以 无监督 的方式来学习
- 主题模型属于 Mixed Membership 模型
- 对于主题模型的推导需要近似算法如 MCMC
目前最流行的技术主要有四种:潜在语义分析(LSA)、概率潜在语义分析(pLSA)、潜在狄利克雷分布(LDA),以及最新的、基于深度学习的 lda2vec,但所有主题模型都基于相同的基本假设:每个文档包含多个主题;每个主题包含多个单词
【2.1】 LSA(潜在语义分析)
主题建模的基础技术之一
第一步是生成 文档-术语 矩阵。如果在词汇表中给出 m 个文档和 n 个单词,我们可以构造一个 m×n 的矩阵 A,其中每行代表一个文档,每列代表一个单词。一旦拥有 文档-术语 矩阵 A,我们就可以开始思考潜在 主题。问题在于:A 极有可能非常稀疏、噪声很大,并且在很多维度上非常冗余。因此,为了找出能够捕捉 单词 和 文档 关系的少数潜在主题,我们希望能降低矩阵 A 的维度。这种降维可以使用 截断SVD 来执行。
- 核心思想是把我们所拥有的 文档-术语 矩阵 分解成相互独立的 文档-主题 矩阵和 主题-术语 矩阵
【2.2】 pLSA(概率潜在语义分析)
pLSA采取概率方法替代 SVD 以解决问题
- 其核心思想是找到一个潜在主题的 概率模型,该模型可以生成我们在 文档-术语 矩阵中观察到的数据。特别是,我们需要一个模型 P(D,W),使得对于任何文档 d 和单词 w,P(d,w) 能对应于 文档-术语 矩阵中的那个条目。具体算法请查看pLSA词条。
【2.3】 LDA(潜在狄利克雷分布)
LDA 是 pLSA 的贝叶斯版本
![]()
主题分布( θ \bm \red { \theta } θ = D i r ( α ) \bm \red { Dir(α) } Dir(α) )和 词分布( ϕ \bm \red { \phi } ϕ = D i r ( β ) \bm \red { Dir(β) } Dir(β) )都由 狄利克雷分布 得出,该分布加和为 1,正好符合要求
- 它使用 狄利克雷先验 来处理 文档-主题 和 单词-主题 分布,从而有助于更好地泛化
- LDA 无疑是最受欢迎(且通常来说是最有效的)主题建模技术
【2.4】 lad2vec(基于word2vec)
在 文档 层面,我们现在知道如何将文本表示为主题的混合。在 单词 级别上,我们通常使用诸如 word2vec 之类的东西来获取其向量表征。lda2vec 是 word2vec 和 LDA 的扩展,它共同学习 单词、文档 和 主题 向量。lda2vec 专门在 word2vec 的 skip-gram 模型基础上建模,以生成单词向量。skip-gram 和 word2vec 本质上就是一个 神经网络,通过利用输入单词预测周围上下文词语的方法来学习词嵌入。
【三】 Gibbs Sampling(吉布斯采样)
θ , ϕ , z ∼ P ( θ , ϕ , z ∣ α , β , w ) \bm { \theta , \, \phi , \, z } \;\sim\; \bm { P(\theta , \, \phi , \, z \,|\, \alpha , \, \beta , \, w) } θ,ϕ,z∼P(θ,ϕ,z∣α,β,w):其中, ( θ , ϕ , z ) ( \theta , \, \phi , \, z ) (θ,ϕ,z) 已知, ( α , β , w ) ( \alpha , \, \beta , \, w ) (α,β,w) 未知, P P P 称为后验概率
- 分开采样:
θ ∼ P ( θ ∣ α , β , w , ϕ , z ) \bm \red { \theta } \;\sim\; \bm { P(\theta \,|\, \alpha , \, \beta , \, w , \, \red \phi , \, \red z) } θ∼P(θ∣α,β,w,ϕ,z)
ϕ ∼ P ( ϕ ∣ α , β , w , θ , z ) \bm \red { \phi } \;\sim\; \bm { P( \phi \,|\, \alpha , \, \beta , \, w , \, \red \theta , \, \red z) } ϕ∼P(ϕ∣α,β,w,θ,z)
z ∼ P ( z ∣ α , β , w , θ , ϕ ) \bm \red { z } \;\sim\; \bm { P( z \,|\, \alpha , \, \beta , \, w , \, \red \theta , \, \red \phi) } z∼P(z∣α,β,w,θ,ϕ)
【3.1】 θ \bm \red { \theta } θ(主题分布)
[ Example: k \bm k k=4, α = ( 0.1 , 0.1 , 0.1 , 0.1 ) \bm \alpha=(0.1, 0.1, 0.1, 0.1) α=(0.1,0.1,0.1,0.1), α n e w = ( 0.1 + n i 1 , 0.1 + n i 2 , 0.1 + n i 3 , 0.1 + n i 4 ) \bm { \alpha_{new} } = (0.1+n_{i1}, 0.1+n_{i2}, 0.1+n_{i3}, 0.1+n_{i4}) αnew=(0.1+ni1,0.1+ni2,0.1+ni3,0.1+ni4) ]
θ i ∼ D i r ( α + ∑ i = 1 N i I ( z i j = k ) ) \bm \red { \theta_i } \;\sim\; Dir(\alpha+\sum _ { i = 1 } ^ { N _ { i } } I ( z _ { i j } = k )) θi∼Dir(α+i=1∑NiI(zij=k))
【3.2】 ϕ \bm \red { \phi } ϕ(词分布)
. . . . . . 略 ( 同 理 ) ...... \, 略 (同理) ......略(同理)
【3.3】 z \bm \red { z } z(主题)
P ( z i j = k ) ∼ e x p ( l o g θ i k + l o g ϕ k , w i j ) \bm \red { P \,( z_{ij}=k ) } \;\sim\; exp \,(\, log \, \theta _ { i k } + log \, \phi_{ k,w_{ij} }) P(zij=k)∼exp(logθik+logϕk,wij)