最大后验估计_文本分析的参数估计

5fd564ef023cdab169531a1c6bd8e900.png

本文是 LDA 经典论文 「Parameter estimation for text analysis」 的阅读笔记。

1 参数估计方法

总的来说,我们面对着两大类推理问题:

  1. 估计分布的参数集
    的值,使其能够最好地解释观察到的数据集合
  2. 给定先前的观察结果,计算新的观察数据
    的概率,即

我们将第一类问题称为「估计」问题,第二类问题称为「预测」(或回归)问题。

数据集

可以看做一系列独立同分布的随机变量
,参数集
依赖于某种概率分布。

对于这些数据与参数,在贝叶斯统计中有许多与之相关的概率函数,我们可以通过贝叶斯规则将这些函数联系起来,如下所示:

上式可以对应到如下的术语:

下面我们会介绍三种不同的估计方法,首先是最简单的极大似然估计,然后是引入参数先验分布的最大后验估计,最后会使用贝叶斯规则推理出完整的后验分布。

1.1 极大似然估计

极大似然估计(ML)尝试去找到使似然函数最大的参数:

关于似然函数的思考:在数据为离散变量时,似然函数对应为「概率质量函数」(即变量在各特定取值上的概率)的乘积;而在数据为连续变量时,似然函数对应为「概率密度函数」的乘积,此时单点的取值没有意义,但可以看做在以该店为中心的极小区间内的概率的估计,我们希望由观察到的数据(真实值)对应的概率(可能性)最大。

为了简化计算,我们通常会对似然函数取对数(不影响其单调性),即可得到下面的极大似然估计问题:

常用的求解方法有直接求导、梯度下降等方法。

基于上述估计的结果,我们可以求解之前所述的预测问题:

即新样本是基于估计参数

分布的。

为了方便与之后的估计进行对比,下面给出一个极大似然估计的实例。

对于一个包含

个伯努利试验(以抛一个畸形硬币为例)的集合
,其参数为
,则对于单个试验来说:

其中定义

为正面,
为反面。

对参数

构建极大似然估计,如下所示:

上式可以直接通过求导求解,结果如下:

我们假设进行了 20 次试验后,正面向上次数

,反面向上次数
,则极大似然估计的结果为

1.2 最大后验估计

最大后验估计(MAP)与极大似然估计非常相似,区别在于其引入了参数的先验估计,尝试去最大化给定数据时参数的后验分布:

使用贝叶斯规则,我们可以得到:

与 (4) 式相比,上式在似然函数的基础上添加了一个先验分布。在实际应用中,该先验分布可以用来加入额外的知识以及防止过拟合(选择更简单的模型)。

通过引入

,MAP 遵循了贝叶斯方法,将参数
看作随机变量,其满足由超参数
构成的某种概率分布
,这种方法创建了一种参数之间的分层结构。

通过使用与之前类似的方法最大化

,我们可以得到 MAP 参数。那么对于一个新的观察值
,给定数据
,可以基于下式进行估计:

与 ML 类似,我们使用之前的试验作为实例,看看 MAP 会给出什么样的结果。

对于参数

,我们选择 beta 分布为其先验分布,beta 分布的概率密度函数为::

其中

表示 Gamma 函数,可以理解为实数范围内的阶乘
,beta 分布支持的变量范围为
,因此很适合用来表示概率值的分布,对于不同的超参数,beta 分布的形状不一,如下图所示:

b1a8c9050c560dbc26cebb1bc5cd7f52.png

在本实例中,我们相信硬币是公平的,因此设置

,即概率为 0.5 的可能性最大。则优化问题可以通过下述过程求解:

上式表明 MAP 估计的结果由实际计数和先验分布决定,实际计数

的影响被先验分布
削弱,随着超参数
(也被称为伪计数)的增大,需要更多的观察值来减弱先验分布的影响。

与之前一样,假设进行了 20 次试验后,正面向上次数

,反面向上次数
,则最大后验估计的结果为
,与之前的 0.6​ 相比更接近于先验分布对应的 0.5 的峰值,表明其受到了对于硬币公平性的先验信念的影响。

1.3 贝叶斯推理

贝叶斯推理是对 MAP 的扩展,它并不是直接估计一个确定的值,而是给出参数的分布,基于分布来决定参数的值(一般选择期望作为估计值)。其计算方法主要基于贝叶斯规则:

由于并不局限于找到最大值,所以我们需要计算分母的

,其值可以通过如下公式计算:

在贝叶斯推理中,

式(又称为边际似然)通常是难以计算的,之后我们将通过共轭分布的概念巧妙地解决这一难题。

对于预测问题,贝叶斯推理的计算公式如下:

下面我们将针对之前的实例,给出贝叶斯推理下的结果。先验分布采用与 MAP 一样的设定,但会选择给出参数

的均值与方差,而非最大后验估计值。后验分布的计算如下:

可以看到,后验分布仍然是 beta 分布。而对于参数为

的 beta 分布,其均值为
,方差为
,因此我们可以得到:

基于之前的结果,我们可以得到贝叶斯估计值为

,方差

可以看到,与 MAP 的结果相比,估计值更接近与先验分布的峰值 0.5,下图给出了三种估计方法的对比:

f844d5e6eb02f54c6cb8aa8079a0d95a.png

2 共轭分布

因为边际似然的复杂性,贝叶斯模型的计算通常是十分困难的。而得益于贝叶斯方法对先验分布的自由性,我们可以采用「共轭先验分布」的方法来简化计算。

2.1 共轭性

共轭先验分布

的特点是:其与似然函数
所构成的后验分布
将具有与先验分布同样的概率分布,只是超参数有所不同(超参数融入了观察值)。贝叶斯推理章节中的
式即体现了这一点,后验分布与先验分布一样均为 beta 分布,只是后验分布的超参数中添加了观察值。

共轭分布的最大好处是简化了计算,同时也有利于理解超参数的意义(如之前实例中将超参数理解为伪计数)。

进一步,共轭先验-似然对可以帮助将似然函数直接表示为超参数的形式(积分可解),如对于 beta-伯努利共轭,似然函数如下:

上式中使用了

这一性质(第一类欧拉积分)。上述结果可以用于对未来发生的伯努利试验作出预测,仅基于先前的观察,而不需要精确的参数
,如下所示:

上式中使用了

这一性质。

除了beta-伯努利共轭,还有一些重要的先验-似然共轭对,可以用来简化版贝叶斯推理的过程。其中之一就是beta-二项共轭。「二项分布」给出了对于

个伯努利试验(参数为
),其中出现
次正面向上的概率:

因为其参数

与伯努利分布的意义相同,所以其共轭先验分布同样为 beta 分布。同理,其他与伯努利试验相关的分布也与 beta 分布共轭,如负二项分布。

2.2 多元情况

之前讨论的均为二元情况,如果我们将事件从 2 种推广至 K 种(有限),就可以得到一个 K-维伯努利(或多项)试验,例如掷骰子。重复这一试验,我们就可以得到「多项分布」,其给出

次试验下各事件的发生次数的概率分布:

其中多项式因子

,元素
满足约束
以及

对于单次的多项试验,其概率分布如下:

其中

中仅有一项元素为 1,其他均为 0(表示该次试验对应的发生事件
),我们可以对上式进行简化,使用非 0 元素
替换向量
,如下所示:

基于上式,对于 N 次重复的多项试验,观察集

的似然函数可以表示为:

其结果恰好为多项分布省略多项式因子,产生这一区别的原因在于上式中我们给定了一个

次试验的输出序列,而不是计算特定的多项式向量
的概率(任意向量),其对应了
种不同情况(二元情况下对应于多次重复伯努利试验观察与多次试验中
次正面向上的概率)。

对于多项分布中的参数

,其对应的共轭先验为
「狄利克雷分布」,即 beta 分布在多维空间的推广:

其中

为超参数,
用于简化表达,下图给出了三维空间下狄利克雷分布的一个示例:

ad8b7729fa9d824fba528d394f22cca6.png

在很多的应用中,会使用对称狄利克雷分布,其基于一个标量参数

和维数
定义:

2.3 文本建模

下面我们将上述知识应用于文本建模之中,考虑从一个大小为

的词库
中抽取
个单词,单词集合记为
,则样本的似然函数为:

其中

是样本中单词
的出现次数。该模型即为 unigram model,其给出了词库
的概率分布
,仅仅考虑了整个语料库的似然函数。基于 unigram model,我们可以提出更多复杂的模型。

如果我们引入贝叶斯推理,考虑参数

的先验分布,则基于共轭理论,其先验分布可以使用狄利克雷分布
,类比
式,我们可以得到参数的狄利克雷后验分布,其将观察值
与先验伪计数进行了结合:

对于新的文本,我们希望能够基于先验观察直接进行建模,绕过参数

,即使用超参数来表示似然函数:

注意上式的积分区间受

约束,实际为
维空间。使用狄利克雷第一类积分性质,可以得到:

结果与 beta-伯努利案例类似,似然函数仅由观察值与先验伪计数构成。式

又称为狄利克雷-多项分布。

3 贝叶斯网络和生成过程

本章节将介绍两种表达系统概率行为的方法:贝叶斯网络和生成过程。

3.1 贝叶斯网络

3.1.1 简介

贝叶斯网络(BN)是一种正式的图语言,用于表达一个系统或现象的联合分布,形式为基于随机变量及其条件依赖的「有向图」。BN 是图模型的一种,图模型还包括无向图模型(马尔科夫随机场)、混合模型等。贝叶斯网络简化了推理计算,只考虑最相关的依赖关系。

具体来说,贝叶斯网络为一个有向无环图,其中节点表示随机变量,边表示对应的条件概率分布。位于一条有向边起点的条件变量被称为父节点,位于边终点的依赖变量被称为子节点。贝叶斯网络区分「证据节点」「隐藏节点」,其中证据节点表示被观察(或假定被观察)的变量,隐藏节点表示潜在变量。证据节点以双圆圈表示,隐藏节点以单圆圈表示。

在很多模型中,存在共享父节点(或子节点)的节点,这些节点可以理解为独立同分布。这种重复可以通过方框表示,右下角给出重复数。

下图给出了狄利克雷-多项模型中的贝叶斯网络。

ef7bb843040c57343af722e657629e4d.png

3.1.2 条件独立和可交换性

贝叶斯网络通过图的拓扑结构来编码随机变量间的依赖结构。基于这种拓扑结构,我们提出独立性中的一个重要概念:「条件独立」。给定一个条件

,如果两个变量
满足
,则称这两个变量条件独立,记作
。一个对于条件独立的口头表述是:已知
,任何关于变量
的信息都不会添加到关于变量
的信息之中,反之亦然。这里的信息包括观察值或参数(变量)。

在贝叶斯网络中,关于一个节点的条件独立性,有两条通用的规则(马尔科夫条件):

  1. 马尔科夫毯(Markov blanket):其定义为一个贝叶斯网络的子图,其中包含一个节点的父节点、子节点以及其子节点的父节点。对于一个节点
    ,给定其马尔科夫毯
    ,其与所有其他的节点
    条件独立:
    .

45100c1956393e7c455182a176ab6ca7.png
  1. 非后代节点(non-descendants):在一个以拓扑顺序(没有节点出现在其父节点之前)排列的贝叶斯网络节点序列中,一个节点的所有非父节点的前置节点均为其非后代节点。对于一个节点
    ,给定其父节点
    其总是与其非后代节点
    条件独立:
    .

为了判断在一个贝叶斯网络中任意节点之间的条件独立性

,一个直接的方法就是
「贝叶斯球」,其尝试去从节点
向节点
传递一个消息(贝叶斯球),给定节点
。当且仅当无法从
将球传递至
(反之也需成立)时,我们有
。该方法对节点集合同样适用,
成立当且仅当所有的节点对
均被节点集合
隔离,即没有贝叶斯球的传递路径。

下图给出了贝叶斯球的判断规则(部分),可以分为三种情况:子节点、父节点以及传递节点。弯箭头表示隔离,直箭头表示可通过。总结起来即对于子节点来说,当且仅当其为隐藏节点时会阻碍传递;对于父节点和传递节点来说,当且仅当其为证据节点(或作为条件)时会阻碍传递。

8c5e7a11ee7e8d4254b12127428b3f0e.png

以狄利克雷-多项模型为例,给定参数

(传递节点),由于其作为条件(注意在原网络中其为隐藏节点),所以会阻碍传递,因此观察
和超参数
并不条件独立。

下图给出了一种更加直观的贝叶斯球判断规则:

9738faf5717d2fcc3901385f1f263a18.png

截止箭头表示贝叶斯球无法通过。基于上述规则,给出下面两个案例:

b5ecd11017af8e6b749d087e5b8626f1.png

在贝叶斯网络中,比条件独立更强力也更重要的独立关系就是「可交换性」。任意随机变量样本的有限序列

被认为可交换,当且仅当其联合分布与其排列顺序无关:
. 对于一个无限序列,当其任意有限序列满足上述条件,则该无限序列也具有可交换性。

可交换性的重要性在于其引出了 de Finetti 定理:一个随机变量的无限可交换序列的联合分布等价于基于某个先验分布采样一个随机参数,然后以该参数为条件,采样生成独立同分布的随机变量序列。该联合分布(下式为有限序列)即为:

在贝叶斯网络中,给定父节点下的可交换性可以使用方框来表示,可以理解为变量在给定条件(父节点)下满足独立同分布。在贝叶斯文本建模中,可交换性对应于词袋模型假设。

3.2 生成过程

贝叶斯网络对一个观察现象的生成过程给出了直观的描述。生成过程用于表示观察值是如何通过隐藏变量生成并传递的,以狄利克雷-多项模型为例,一个词语的生成过程如下所示:

其表明,参数

采样自狄利克雷分布,之后词语
采样自以
的多项分布。

贝叶斯推理的任务是转置生成过程,基于给定的观察值生成参数值(后验分布),注意只有在特殊情况(比如共轭)下才能推导出完整的后验分布。

4 隐含狄利克雷分布

LDA 是一个概率生成模型,用于通过无监督学习估计多项式观察的属性。在文本建模领域,LDA 对应于一种被称为”潜在语义分析“(LSA)的方法,LSA 的核心思想是找出文本中所蕴含的主题,该主题能够反映出文本的真实含义。我们可以通过文本中单词的共现结构来恢复出潜在的主题结构。LDA 本质上是对 PLSA(基于概率的潜在语义分析)的拓展,其引入参数的先验分布,定义了一个完整的生成过程。

4.1 混合模型

LDA 是一种混合模型,即通过组件概率分布的凸组合来对观察过程建模。凸组合指加权因子和为 1 的加权和。在 LDA 中,一个词语

由一个主题
的凸组合生成,如下所示:

其中每个混合组件

是对应于潜在主题
的词语的多项分布,加权因子为
. 需要注意的是,LDA 并不是基于全局的主题分布加权,而是
「基于词语所属文档」的主题分布加权,即
.

基于上述表述,我们可以给出 LDA 推理的主要目标:

  1. 给出每个主题
    下的词语分布概率
  2. 给出每篇文档
    下的主题分布概率

估计参数集

是对词语及文档潜在语义表达的基础。

4.2 生成模型

为了给出推理策略,我们将 LDA 看作一个生成过程。下图给出了 LDA 的贝叶斯网络:

2eacbc247bd9851f71e27a54b5af5457.png

我们可以通过如下生成过程理解该贝叶斯网络:

LDA 以文档

为划分,生成观察词语流
.
  • 对于整个语料库,为每个主题生成一个主题-词语概率向量
  • 对于每篇文档,生成一个文档-主题概率向量
  • 对于每个词语,先基于文档-主题分布概率
    生成一个主题
    ,再基于对应的主题-词语分布概率
    生成一个词语

下图给出了完整的生成过程和符号表述:

816b0c3800ec323e99c7a3454055d552.png

2f07c4d1a70d11d9287fc4e4f8225c84.png

4.3 似然函数

基于贝叶斯网络的拓扑结构,我们可以给出一篇文档的全数据似然函数,即给定超参数下所有已知和隐藏变量的联合分布:

而对于单个词语

,其为特定词语
的概率如下:

即之前所述的混合模型。整个语料库的似然函数为各文档的似然函数相乘(独立事件):

4.4 基于吉布斯采样的推理

虽然 LDA 看上去并不复杂,但进行精确的推理(求解)是十分困难的。因此我们需要使用近似推理算法,这里使用的方法是「吉布斯采样」

吉布斯采样(Gibbs Sampling)是马尔科夫链蒙特卡洛模拟(MCMC)的一个特例,可用于为高维模型(如 LDA)的近似推理提供相对简单的算法。MCMC 方法可以通过马尔科夫链的平稳行为来采样高维概率分布

,即当马尔科夫链达到稳定状态时,每一次传递生成的样本服从平稳分布,我们只需要想办法让平稳分布为待采样分布。

吉布斯采样的思路是:每次只更新分布中的一个维度

,以除去该维度的其他维度
为条件:
  1. 选择一个维度
    (随机或按某种顺序)
  2. 基于
    采样

最终收敛后的得到的样本即为

的样本。

为了构建一个吉布斯采样器,我们需要找出单变量条件分布

,可以通过下式计算:

而对于包含隐藏变量

,我们一般想要知道其后验分布
。基于式
,吉布斯采样器的公式如下:

其中的积分对于离散变量来说为求和。基于吉布斯采样得到足够的样本

后,我们可以通过下式来估计潜在变量的后验分布:

其中克罗内克函数

.

4.5 LDA 吉布斯采样器

下面我们将给出 LDA 的吉布斯采样的详细过程。

我们将使用上述隐藏变量的公式,在 LDA 中,隐藏变量即语料库中每个词语

对应的主题
。对于参数集
,我们认为其只是马尔科夫链中稳定变量的统计学关联,会通过积分消去这些参数,这种策略在模型推理中被称为 “collapsed”,经常用于吉布斯推理之中。

基于上一节所述,推理的目标是

,其可以通过下式得到:

其中略去了超参数。该公式是难以直接求解的,需要引入吉布斯采样。为了模拟

,我们要基于
推导单变量条件概率
.

4.5.1 联合概率分布

我们首先推导「联合概率分布」。在 LDA 中,联合概率分布可以拆分为两个部分:

上式利用了贝叶斯公式

,而因为第一项中
条件独立(
,可通过贝叶斯球推导),而第二项中
独立。下面我们分别来推导第一项和第二项的概率。

第一项

可以通过给定相关联主题下的多项分布进行化简:

上式相当于进行了

次独立的多项试验(词袋模型不考虑词语间的顺序信息),我们可以进一步将其转换为一个遍历的乘积与一个遍历词表的乘积:

其中

表示词语
被观察到主题
的次数。基于上述公式,我们通过积分消去
,具体推导如下:

上式可以理解为

个狄利克雷-多项模型的乘积.(类比
式)

与第一项类似,第二项主题分布

可以表达为如下形式:

其中

表示词语
所属的文档,
表示文档
中主题
随词语出现的次数。对
积分,可以得到:

综上所述,联合概率分布为:

4.5.2 单变量条件分布

基于联合概率分布, 我们可以推导出一个词语的单变量条件分布,其下标为

,该分布即为吉布斯采样的更新公式,具体的推导过程如下:

其中式

利用了独立假设
,并省略了常数项
. 式
只保留了词语
所属的主题与文档向量, 式
省略了第二项的分母因为其与
无关。

4.5.3 多项参数

最后,我们需要找出对应马尔科夫链状态

的多项参数集
. 基于共轭分布的性质和之前的推导结果,可以得到参数的如下后验分布:

其中

是文档
的主题观察数,
是主题
的词语观察数。使用狄利克雷分布的期望:
,可以推导出参数的估计:

4.5.4 吉布斯采样算法

使用公式

,我们可以给出下图所示的吉布斯采样过程。关于采样的次数,有很多种准则,我们可以手动去确认聚类是否合理。关于模型参数的获取,一种方法是直接使用收敛后某次采样的数据计算,另一种方法是根据多次采样的结果求平均,注意求平均时每次采样会间隔
次迭代,来消除相邻马尔可夫状态之间的相关性。

da6e980c955c03e340ad4cc30fb55f83.png

5 LDA 超参数

在上一节中,我们假设超参数(狄利克雷分布的参数)是已知的,这些超参数对模型的行为有着重要影响。在 LDA 中,一般使用对称先验,即所有主题分配给一个文档的概率以及所有词语分配给一个主题的概率是一致的。本章节将对超参数的含义进行解释并给出基于数据估计超参数值的方法。

5.1 理解

狄利克雷超参数对多项参数一般具有「平滑效应」。通过减小

的值,我们可以减少 LDA 中的这种平滑效应,产生更具决定性的主题关联,即
变得更加
「稀疏」

的稀疏性(由
控制)导致模型趋向于为每个主题分配更少的词语,这会进一步影响模型中主题的数量。对于稀疏的主题来说,如果主题数量
设置得较高,模型可能会拟合得更好,因为模型并不情愿为一个给定的词语分配多个主题。而
的稀疏性(由
控制)导致模型趋向于使用较少的主题来描述文档(也会影响主题数量)。

上述理解表明超参数取值、主题数量与模型行为之间相互影响。根据已有经验,一个效果比较好的超参数取值为

。我们也可以基于数据来估计超参数(给定主题数量
),发现数据集中的具体特性。然而,对于超参数估计的解释并不简单,且其对于特定文档集的影响仍有待研究。下一节我们将给出对
的估计(
的估计类似)。

5.2 估计

估计超参数

的方法有很多种,但这些方法都没有给出精确的闭合解,也不存在可直接进行贝叶斯推断(推断
) 的先验共轭分布。目前最准确的方法是
「迭代估计」。我们将使用吉布斯采样器中已得到的信息(即关于主题的计数信息)来进行估计,参考式
,通过最大似然估计迭代更新参数:

对于「无约束的向量化狄利克雷参数」,一个简单的定点更新式的最大似然估计如下:

其中

是 digamma 函数,为
的导数。我们可以先基于某种方法初始化超参数,然后执行数次迭代直至收敛。

对于「对称狄利克雷分布」(LDA 中更常用),文献中并没有给出吉布斯采样器中这些超参数的估计方法,我们使用简单的

等分方式:

除了上述最大似然估计,我们也可以考虑引入先验分布,通过最大后验分布估计或是 MCMC 方法来采样超参数。

6 分析主题模型

本节我们将使用给定语料库的潜在主题结构来:

  • 分析新文档的主题结构
  • 分析主题的聚类质量
  • 基于主题推理新的关联(如文档或词语的相似性)

下面介绍 LDA 的几个实际应用场景。

6.1 Querying

给定一个文档,主题模型提供了两种方法来查询与其相似的文档:

  1. 通过文档参数的相似性分析
  2. 通过预测性的文档似然函数

上述两种方法都需要先给出查询文档的主题估计。

6.1.1 主题采样

对于一个查询文档,其由一个词语向量

组成,我们将基于训练得到的 LDA 模型
来采样主题,进而计算文档-主题分布参数
.

采样的方式仍为吉布斯采样,对应于

式,但需要注意的是主题-词语分布参数
和超参数
来自于训练好的模型,我们只需要对新文档中的每个词语的主题进行采样(先随机分配主题),如下式所示:

采样完成后,使用式

来计算未知文档的主题分布:

该采样同样适用于多篇文档。

6.1.2 相似性排序

得到了文档-主题分布

后,我们可以使用两种方法来计算其与语料库中的文档-主题分布
的相似性。

第一种是 KL 散度,其基于两个离散变量定义:

KL 散度可以理解为交叉熵

的熵
之间的差异,只有两个分布相同时, KL 散度才会为 0。

第二种方法是基于距离的测量(KL 散度不对称,

),使用 Jensen-Shannon 距离:

其中平均变量

.

6.1.3 预测性似然排序

另一种查询的方法是计算语料库中文档

可以基于查询文档
生成的可能性(仅考虑主题分布,不考虑具体词语),使用贝叶斯规则,可以得到下式:

上式中假定

。直观上看,式
是一个主题向量间的加权标量乘积,惩罚了短文档和强主题。

6.1.4 检索

对于上述基于主题模型的查询策略,我们可以将其应用于信息检索领域。关于检索效果的评估,最常用的评估指标是准确率和召回率。准确率是指所有检索返回的文档中相关文档的比例;而召回率则是指所有相关文档中被检索返回文档的比例。由于准确率

和召回率
通常相互制约,我们可以使用
或加权值
来评价检索效果。

这里有两个问题需要说明,第一个是基于主题模型的检索可能导致准确率的下降(对应于召回率的上升),因为其考虑了文档的潜在主题结构而非字面量。我们可以考虑将主题模型检索与其他检索方法进行结合。第二个是应当使用与主题分布相关的查询构造策略,如通过未知文档构造出的主题分布。

6.2 Clustering

LDA 还可以用于对文档与词语的聚类,其主题分布提供了一种软聚类的结果。基于主题分布,我们可以计算文档或主题之间的相似性(上一节所述)来查看聚类结果。

6.2.1 VI 距离评估

对聚类质量的评估也十分重要。原则上,我们可以直接基于计算得到的相似性来主观评价聚类质量,而一种更加客观的评估方法是将模型应用于已经分好类的语料库,比较模型给出的聚类结果与先验结果。下面我们将介绍一种比较聚类结果的方法,叫做 Variation of Information distance (VI 距离),其能够计算类数量不同的软聚类或硬聚类之间的距离。

VI 距离的计算公式如下:假定每个文档都有两种主题分布(软聚类):

,其中主题
。整个语料库上的主题分布取平均:
.

对于相似的聚类,主题往往趋向于成对

出现;而对于不相似的聚类,则对应于主题分布的相互独立:
. 为了衡量相似程度,我们使用
「真实分布与假定独立的分布之间的 KL 散度」,在信息论中这对应于随机变量
之间的互信息:

其中联合分布

. 只有两个变量间相互独立,其互信息才为 0。

进一步地,我们有

,其中
表示
的熵。当且仅当两个聚类相等时等号成立
。利用这一性质,我们定义 VI 距离的计算公式如下:

始终非负,且满足三角不等式:
。VI 距离只取决于聚类情况,与数据本身的绝对数量不相关。

6.2.2 困惑度评估

除了上述基于先验结果的评估之外,我们还可以直接基于保留数据(即未参与模型训练的数据)的似然函数进行评估。然而似然值通常为较大的负数(对数函数特性),所以我们使用「困惑度」(perplexity)来作为评估标准:

困惑度可以直观地理解为模型生成测试数据所需要的均匀分布的词典大小。困惑度越低,表示模型对测试数据中词语的表示越好。对于 LDA,困惑度中似然函数的计算公式如下:

其中

基于之前的
式采样得到。

除了用于评估聚类质量,困惑度还可以用来判断吉布斯采样过程是否收敛。通过计算训练集的困惑度,我们可以了解模型是否存在过拟合,据此判断何时停止采样过程。

以上就是论文的主要内容。更多学习笔记欢迎关注微信公众号「口仆」

声明:本文系本人原创,共发布于知乎、微信公众号(口仆)和个人博客(https://xxwywzy.github.io)三个平台,所有文章除特别声明外,均采用BY-NC-SA许可协议。转载请注明出处!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值