Unsupervised learning of semantic representation for documents with the law of total probability

本文链接：https://blog.csdn.net/u012224349/article/details/102804685

摘要

提取文档的语意信息的意义在于它是很多应用的基础，例如：文档总结、检索文档、文本分析等。

现存的方法（通过分析文档包含词相关性来扩充用来表示文档的向量）远不理想的原因是文档的物理限制阻碍了词之间的相关性评估——无法捕获深层的相关性。

为了解决以上问题，本文通过词和词之间的公相关词来进一步推测它们之间的深层关联，为了避免高估深层关联本文基于全概率公式来约束深层关系推理——以边缘概率为指标。

介绍

BOW（bag of words）被广泛应用的原因是：简单、有效、表现优秀，然而词袋模型的缺点是只能作为含有公共词的文档的相似性的指标，不能反映含有不同词的文档的相似性。

解决以上问题提出了latent topic models被提出，常见的如下方法：

latent semantic indexing
latent dirichlet allocation
doc2vec

基于上面的方法，文档将被表示为对一定数量主题的分布，相似的文档的分布也相似。但基于主题分布模型的方法中很多参数（尤其是主题维度）经常难以确定

相比于latent topic models，统计学文档特征扩充方法基于文档源词与文档语料库中所有词的相关性来构建上下文，而相关性是根据统计数据得到的，通常为co-occurrence frequencies，这样一来BOW产生的稀疏文档特征向量就被扩充为稠密特征向量，并且这种方法没有像topics models一样的限制。
常用的文档特征扩充方法是Context Vector Model（CVM），该方法把和源文档中任意词相关的词判别为文档的相关词，把在同一篇文档中中共现的词判别为两个词相关。但由于文档的物理限制，基于这种方法获取词之间的相关性的效果不理想。
为了检测词之间的传递相关性（不能根据co-occurrence frequencies检测），条件概率是一个很好的idel，在这篇文章中把词之间的相关性形式化为条件概率，这样就可以从理论上推测传递相关性了，同时基于词边缘概率和全概率为条件的条件概率的关系来避免高估传递相关性。

本文贡献

通过词之间的传递相关性来度量文档之间的语意相似性
通过最小化以全概率公式为基础获得的边缘概率和以原始的频率为基础获得的边缘概率之间的区别提出了三个度量词之间传递相关性的策略
实验表明本文提出的方法比现有最优秀方法有更好的表现

预备知识

表一中展示了本文中用到的符号：

在BOW中文档集合D中有m个不同的字符，它们用来构建特征空间，D中的任意文档，它的特征向量表示如下：
$\Phi_{bow}:\mathbf{d}=\left ( c_{v_1|d}, c_{v_2|d}, c_{v_3|d}, ..., c_{v_m|d}\right )^T \in \mathbb{R}^m$
考虑到BOW不能识别包含不同词的文档的相似性，所以提出了CVM，用来通过一组加权的词向量来发现文档的意义。
V中任意的 $v_i$ 的上下文词向量被定义为（Billhardt et al.）：
$v_i = \left ( \frac{c_{v_iv_1|D}}{c_{v_i|D}}, \frac{c_{v_iv_2|D}}{c_{v_i|D}},...,\frac{c_{v_iv_m|D}}{c_{v_i|D}} \right )^T$
一般情况下，词的意思应该独立于语料库的尺寸。因此，这里引入了语料库中 $v_i$ 的出现频率 $c_{v_i|D}$ 来表达 $v_i$ 的上下文。 $V_i$ 中的值用来度量 $v_i$ 和语料库V中词的关系。

组合所有的词向量，我们可以得到一个m * m的矩阵 $V = \left ( v_1, v_2, ..., v_m \right )$ （上下文矩阵），CVM生成的文档向量为：

基于CVM的文档特征向量是在BOW的基础上根据语料库中所有词与源词之间的平均关系来扩充的，而这里的关系在这里被定义为词与词之间的显式关系，下图显示由于文档的物理限制，这种关系是有局限性的。

类似于本文中的idel，CRM（Coupled term-term Relation Model）已经实现了推测传递关系，该方法中完全关系被表示为：显式关系和隐式关系的组合，核心公式如下：
$\boldsymbol{V_i}\left ( j \right )=\left\{\begin{matrix} \alpha \frac{c_{v_iv_j|D}}{c_{v_i|D}} + \frac{(1 - \alpha )}{\left | L \right |}\sum _{v_k\in L}min_{a = i,j}\left \{ \frac{c_{v_a,v_k|D}}{c_{v_a|D}} \right \} & j \neq i\\ 1 & else \end{matrix}\right.$
其中 $L = \left \{ v_k|\frac{c_{v_i,v_k|D}}{c_{v_i|D}}> 0 \wedge \frac{c_{v_j,v_k|D}}{c_{v_j|D}}> 0 \right \}$ ， $\left | L \right |$ 表示语料库中 $v_i, v_j$ 公共现词的个数。
上面CRM公式用一个简单的参数 $\alpha$ 来控制不同词对下显式关系和隐式关系的权重，这有降低特征向量的区分力的危险。

全概率模型

本文通过显式关系直接计算完全关系，这里将 $v_j$ 对 $v_i$ 显式关系形式化为条件概率：
$\frac{c_{v_iv_j|D}}{c_{v_i|D}} = \mathbf{P}\left ( v_j|v_i \right )$
概率化后可以为推测隐式关系提供理论基础，也为发现完全关系和词的边缘概率之间的关系提供的保证。通过线性回归可以自动推测显式关系和隐式关系的权重。

定义完全关系

假设一个词在另一个词出现的条件下的条件概率可以通过它们对于语料库中所有词的当前分布（词的边缘概率，对于语料库中不同的词赋予不同的权重 $\omega_k$ ）来修正。则有下面的修正后的条件概率公式：

考虑到在大多数情况下 $v_i，v_j$ 并不是独立的，所以有下面的近似相等公式：
$p\left ( v_j,v_i \right ) \simeq \sum_{k = 1}^{m}p\left ( v_i|v_k \right )p\left ( v_j|v_k \right )p\left ( v_k \right )$
所以本文的公式中采用 $\omega_k$ 来控制词 $v_i，v_j$ 出现的独立性，使等式成立。

修正后的条件概率公式中当 $v_k=v_i$ 时（ $v_k=v_j$ 时同理）， $p\left( v_i|v_i \right) = 1$ ，可知此时：
$\frac {p\left ( v_i|v_i \right )p\left ( v_j|v_i \right )p\left ( v_i\right )}{p\left ( v_i \right )} = p\left ( v_j|v_i \right )$
而 $p\left ( v_j|v_i \right )$ 即为 $v_i，v_j$ 之间的显式关系，因此，以上定义的条件概率就是完全关系，它通过参数 $\omega_k$ 组合了显式关系和隐式关系。

下面介绍参数 $\omega_k$ 的获得方法

参数估计

通过边缘概率估计参数
有如下符号化约定：
- $\mathbf{\omega }=\left ( \omega_1, \omega_2, \omega_3,...,\omega_m \right )^T$
- $\mathbf{p}= \left ( p\left ( v_1 \right ), p\left ( v_2 \right ), p\left ( v_3 \right ),..., p\left ( v_m \right ) \right )^T$
假设 $\mathbf{\omega }$ 已知，由全概率公式可得：

这里的参数 $\omega_k$ 可以抵消联合概率中事件依赖带来的冲突。
扩展 $p$ 为一个m*m的矩阵 $P$ ，上面等式可以表达如下：

令，则A中第k列第i行的元素即为联合概率
在式子13的基础上，参数估计就等价于最优化下面的公式：

等式14的可解析方程为：
通过常数约束进行估计
$p(v_i)$ 也可以通过语料库中所有词以源词出现为条件的条件概率推导出来，有如下等式：

上式中两边同除以 $p(v_i)$ 可以得到：

和式12类似，式17可以表达为如下形式：

上式中的 $\mathbf{1}$ 是一个m维向量，其中所有的值为1，则参数估计的目标方程可以表示为如下等式：

可解析表达式如下：

上面就是基于常数约束的参数估计。
通过语意一致性进行估计

上面的讨论中提到： $P(v_i|v_i) = \frac{p(v_i, v_i)}{p(v_i)} = 1$ ，这是因为 $P(v_i, v_i) = p(v_i)$ ，通过引用等式8到这个等式中，可以得到下面等式：

换为向量的形式：

令 $A = P^T \cdot V \cdot V$ ，参数估计等价于最小化下面的等式：

A中的第k列第i行的元素为联合概率 $P(v_i, v_i, v_k)$ ，可解析方程如下：

和等式15类似，等式21中参数估计也是基于边缘概率，但是和15不同的是，21中的约束条件为语意约束（一个词和自身的共现关系为1）而不是基于全概率公式导出的约束。

方案实现

本文提出了三个参数估计的方式，使用这三个方式之前都需要我们首先构建上下文矩阵 $\mathbf{V}$ ，在式15和24中我们需要计算边缘概率来进行参数估计，得到参数之后，我们就可以计算完全关系接着生成扩充BOW文档特征向量，这部分将描述具体的工作流程。

这里一共采用三种方案来估计词和词之间的显式关系，如下：
这里的 $r(v_i, v_j)$ 都表示词之间的显式关系

PCP：
PPMI：

这里 $P(v_i, v_j) = \frac{c_{v_i,v_j|D}}{\sum_{i = 1}^{m}\sum_{j = 1}^{m}c_{v_i,v_j|D}}$ ， $P(v_i) = \frac{c_{v_i|D}}{\sum_{j = 1}^{m}c_{v_j|D}}$ ，这里实现PPMI采用的窗口大小为2，这意味着仅仅一个词挨着另一个词的情况下，这两个词才被认为是共现。
LIN：

这里的 $c_i$ 是 $v_i$ 在WordNet中对应的概念， $IC(c_i) = -log_2P(v_i)$ ， $LCS(c_i, c_j)$ 表示最低公共包含。

正如公式5那样，上面方法计算的词之间的显式关系被符号化为条件概率：

此处，当i = j时，记$p(v_j|v_i) = 1

通常，我们假设一个词的出现频率足够产生可靠的边缘概率，为了使边缘概率的计算更加可信，我们引入了一个阈值变量TH，它用来判断一个词的出现评率是否充足。不是一般性，这里假设预料库V中各个词出现的评率逆序排列，则这里的边缘概率采用下面的公式计算：

上式中为每个 小频率词赋予相同的边缘概率，并且这里赋予小频率词评率的权重为1,（小频率词通常表达一些特殊的意义，它有更强的连接两个词的能力），结果有入下的形式化参数向量：

上面，
与上面类似，令：

则的计算入下：

上式中，通过设置 less frequent words的权重为1，即为所有m个词的边缘概率，且不考虑他们与less frequent words的共现。
本文提出的文档特征向量的扩充方案整理成如下算法：

第四步中的计算词之间的完全关系的根据是公式6，第五步中产生扩充的文档特征向量的根据是公式3。

结论

文档聚类
1、扩充BOW是必要的；
2、考虑词之间的隐式相关关系是必要的；
3、词的边缘分布隐藏着一些固有的语义信息；
4、三种参数估计方法中，基于边缘概率的方法表现最好，基于语意的方法次之，基于常数的方法最差；
5、专家库的知识覆盖面可能会影响以知识库为基础的方法；
6、本文提出的方法优于主题模型。
语意相似性估计
1、词的多义性、同义性、语意转化现象都增加了基于统计学的方法检测人名、技术术语相似性的难度；
2、词之间的相关性更能表达语法相关性而非语意相似性。

展望

NNMs在非监督学习问题中（NLP）用得很少，在本文的实验中，NNM在两个任务中都没有足够好的表现，这里将表现不好的原因归结为以下几个方面：
对于非监督任务，NNMs给的信息量过大：NNM在文档特征向量中嵌入的不仅仅是语意形式，还有很多语法信息，这些不必要的信息可以通过监督训练过滤掉，但是这也许会影响非监督方法的计算过程。此外，非监督的关键是采用尽可能少的信息训练百万级的参数，从这方面讲，TPMF和TPMS获取的词之间的共现频率、词的出现频率就可以成为新的约束，把它们加入NNMs中有提高NNMs表现的可能。

本文实验结果表明，统计学方法和基于专家知识的方法在文档聚类和语意相似度估计中各有长短，所以集成以专家知识为基础的方法和本文提出的方法来强化词语关系估计效果，进而缓解知识覆盖面有限的问题是很有价值的。

在用基于知识的方法来推测隐式关系之前，一词多义问题也需要控制。