python ctm 关联主题模型_融合链接文本的增量联合主题模型

本文提出adaptivelink-IPLSA算法,针对动态变化的链接文本集合进行高效稳定的主题建模。该算法扩展了经典链接隐含语义分析模型link-PLSA,结合内容和结构信息,旨在处理不断变化的链接数据,以改善基于内容的建模方法在Web网页分析中的局限性。研究背景包括PLSA、LDA等主题模型,以及CTM等扩展模型,强调了链接信息在理解网页群体关联性和权威性中的重要性。
摘要由CSDN通过智能技术生成

主题模型是当前文本表示研究的主要范式,起初主要研究聚焦于文本分类和信息检索等领域。具有代表性的主题模型有PLSA(probabilisticlatentsemanticanalysis)[1]和LDA(latentDirichletdistribution)[2]。这些传统的基于内容建模的主题建模方法尽管可以直接应用于Web网页,然而Web网页具有其自身特点:一方面Web页面之间存在着丰富的超链接,对理解一个具有相关性的页面群体提供了非常有价值的信息;另一方面很多网页以图片和相关链接为主而文字内容极少,这使得传统的基于内容建模的主题生成方法很难发挥好的效果。Web内容分析与Web结构分析之间的关系尤如内容和形式的关系,网页间的超链接在一定程度上描述了文档间的关联性和权威性,结合基于文本内容分析和结构信息的主题建模技术是对网页进行主题建模的根基。本文的研究工作由经典的链接隐含语义分析模型(link-PLSA)[3]展开。Link-PLSA无法高效处理动态变化的链接文本集合,该方法对数据变动敏感。在对网页建模实际的应用中,往往遇到动态变化的链接数据,重新训练数据算法时间复杂度高且代价较大。为了更好地建模这类数据,可以扩展link-PL-SA模型,使之能够处理动态变化的链接数据。本文提出一种高效稳定的adaptivelink-IPLSA算法来建模变化的链接信息和文本信息。1相关工作研究者提出了不同的主题模型在文本集中建模主题,也即给定多项分布的隐含变量捕获词的共现模式。在特定隐含变量(主题或层面)给定的情况下,将文档建模表示为一系列的词共现集合的混合,也就是词汇表上的多项分布,或称为文档集中的“主题”。将这个词上的多项分布解释为主题能够给文档集一个直观的结构,所以这类概率模型常常称为主题模型[4]。使用混合主题的方式建模文本最初主要应用于文本分类和信息检索等领域,近年来在计算机图像处理与视觉领域也得到了广泛的应用。具有代表性的主题模型有PLSA和LDA。其中LDA是全概率生成模型,它具有清晰的内在结构,能够有效地解决过拟合问题,而且在某些文本分类的任务中具有更好的性能。扩展模型包括Blei等人[5]提出的CTM模型,该模型提供了可视化文本数据集以及其他非结构化数据集的方法。联合主题模型的研究源于对具有链接关系或引用关系数据的完整描述。传统主题建模方法中,多利用网页正文中的信息,其次是超文本标记中的一些超链接信息,且相关研究表明,超链接信息对网页主题的描述和预测有着很大的作用。充分利用互联网的链接结构信息来扩展主题建模的研究具有极为重要的意义。Zhu等人[6]提出通过分解链接邻接矩阵和文档矩阵来探索内容与链接之间的关系。Mei等人[7]定义了主题模型网络TMN(topicmodelnetwork),提出了一个基于图结构的谐波正则化统计主题模型。Menczer[8]分析了大量链接数据集可视化相似关系,从而确定如何将内容与链接结合来进行近似分析。Cohn等人[3]提出一种联合文本和链接关系的联合概率模型(link-PLSA)。在该方法中,链接被看成与特征词一样的观察对象,并认为这两种模态对模型的构建具有不同的意义。Erosheva等人[9]同样基于词文档矩阵与引用被引矩阵扩展了LDA模型,使之包含了生成引用关系的过程。Gruber等人[10]提出了一种新的生成模型LTHM来建模超文档链接的数据集,该模型可以显式地建模链接关系。Nallapati等人[11]提出了两种不同的模型来处理文本和链接关系的主题建模问题。然而上述方法均不适用于动态变化的数据集合。在增量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值