北航的同行,去年连续发了三篇论文,都是和短文本处理相关的。
链接分别是:
第二篇1 ,
第一篇,将短文本和场文本的分类区别开:
A topic model for co-occurring normal document and short texts
其基本思想是,短文本除了有基础话题(formal topic),也会讨论其他的信息(information topic),所以在短文本生成的过程中有bernounli分布,判断话题类型,而长文本是传统LDA,对于信息话题,具有全局的话题分布(和文档无关),如图:
其概率公式为,其中bdcm为单词话题类型的标签(1,0),表示来自K或J:
所以这篇文章还是基于假设短文本中不同单词的话题不同。没有解决其稀疏性的根本问题。(补充研究)——问题描述不清晰,这里的数据集结构是每个短文本都有一个长文本相关,即多个短文本伴随一个长文本进行补充描述,所以用长文本话题指导短文本话题。所以数据使用新闻数据。
第二篇:
Robust Word-Network Topic Model for Short Texts
其基本思想和BTM模型类似,都是为了强化co-occurrence的语义相关性对话题建模的促进作用,缓解稀疏性影响,和BTM不同的是,他们利用Bterm构建了pseudo-document,即doc-word空间到word-word空间。为了过滤无关话题,还添加了背景话题分类,其生成图,如下:
这个图让我想起了,LDA的变种,分割语义话题和语法单词的图模型。不过这里的文档是与单词相关的邻接伪文档。其生成过程中,关键也要判断x,表示w的话题是否来自于背景或者相关话题。
Gibbs Sampling过程不再赘述:
Word network topic model: a simple but general solution for short and imbalanced texts
对上一篇文章的补充(期刊),主要工作包括降低复杂度——降低权重(因为文档数为单词个数,所以只能降低边的权重,减少采样个数),同时补充了更多的实验。其中对权重的计算,使用到临近的权重和以及均值。
第三篇:Topic Modeling of Short Texts: A Pseudo-Document View
一个点子,三篇论文,干的漂亮,
隐式的对文本进行聚合缓解稀疏性,并利用Spike-Slab强化。PTM(pseudo document-based topic model)和SPTM(sparsity-enhanced...) 可以看到,S的某些对PTM的限制得到更好的效果,即:更少的数据;短文本的属于单一文档设定。论文没有对pseudo-document做什么说明,只是说是聚合了短文本的伪文档。这里,我理解为在短文本上添加一层分布,文本-伪文档,伪文档-话题。而且,伪文档为潜在变量,潜在变量(像话题)。其他强化假设,比如,文本只属于一个伪文档,单词生成首先从对应伪文档的话题分布中采样话题,然后有话题-单词分布生成单词。
in a nutshell,伪文档被假设为单词更密集的中间文档,提高了co-courrence。相对于SATM(自我聚合话题模型)的两阶段:第一阶段,伪文档按照LDA方式生成,第二阶段通过伪文档生成。即SATM的伪文档-短文本的概率,而PTM是布尔值关系(唯一性)。同时对比了PAM,相比较PAM的super-topic到子话题的扩张,PTM的伪文档(第二层)的节点反而更多。
生成过程如下图:
PTM:对于每个短文本,首先采样器pseudo,对于每个单词,然后利用pseudu的话题分布生成话题z,通过多项式分布得到该单词。
SPTM:针对稀疏文本的(spike-slab模式,像不像targeted-aspect topic model的结构),用bernounli判断话题是否属于伪文档,然后用smooth和weak smooth先验平滑,前者是spiker,后者是slab。对于每个伪文档,首先采样二值π,对于每个话题,采样话题选择,然后利用smooth prior采样话题分布。
用空补充推断过程。