论文解读：Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding（通过联合球面树和文本进行的层次主题挖掘）

最新推荐文章于 2024-05-19 09:39:13 发布

拾年之璐

最新推荐文章于 2024-05-19 09:39:13 发布

阅读量847

点赞数 1

分类专栏：研究生课程文章标签：自然语言处理深度学习知识图谱球面树主题挖掘

本文链接：https://blog.csdn.net/cxh_1231/article/details/117535357

版权

研究生课程专栏收录该内容

19 篇文章 42 订阅

订阅专栏

本文是知识发现与数据挖掘的大作业，主要是对论文《Hierarchical Topic Mining via Joint Spherical Tree and Text Embedding》进行分析解读。全文字数：5300+。

本文主要从以下几个方面进行解读：

1. 算法的计算任务

1.1 算法功能

本论文提出的任务为层次主题挖掘（Hierarchical Topic Mining），其目的是基于用户提供的类别层次结构，在语料库中为每个类别检索一组连贯的、有代表性的术语，来帮助用户理解其感兴趣的主题。如图1所示，左侧是用户提供的感兴趣概念的层次结构和语料库（Text Corpus），依靠层次主题挖掘任务，从文本语料库中检索一组代表性的术语（即每个节点的一般描述）。这里的代表性指的是对该类别节点提供了清晰的解释。

图1 层次主题挖掘的示例

1.2 输入数据的物理意义与数学表达

在该算法中，需要输入的数据主要有两个：语料库和类别层次结构。

本论文用到的语料库主要是arXiv（arXiv网站归档的论文摘要及全文数据集）和NYT（纽约时报所有文章数据集）。在存储上，要求每一行都是一个完整的句子或者段落。论文提供了arXiv数据集的mini版本，其存储在TXT格式的文件中，共23万条数据，如图2所示。

图2 arXiv数据集（部分）

本论文输入数据的类别层次结构，在数据结构上是“树”结构，在存储结构上，由两个TXT文件存储，共同构成这棵“树”。一个文件包含所有类别名及其ID，并以空格间隔，如图3（左）所示；另一个文件存储了类别之间的上下级关系，每行包含两个由空格分隔的类别ID，前一个类别是后一个类别的父类别，如图3（右）所示。根据后一个文件，可以将类别名及其上下级关系，整合成树形结构，如图4所示。

图3 左：类别文本文件（部分）右：类别分类文本文件（部分）

图4 “树”结构

在数学表达上，这个“树”结构，最终以一个N×N的二维矩阵表示。比如上图示例，有33个节点，则以一个33×33的二维矩阵表示，如图5所示。矩阵的列号和行号均对应树中的类别ID，行号和列号从0开始计数。矩阵中的数字0表示这两个节点没有直接关系，数字1表示这两个节点是兄弟关系，数字2表示列号ID是行号ID的父类。

图5 示例输入数据的数学表达

1.3 计算结果的物理意义与数学表达

本项目的计算结果是为每个类别提供一组具有代表性的术语，在项目运行过程中，可以设置运行的epochs，每个epochs运行结束后，运行结果已经在控制台中输出，故其没有实际的数学表达。

当最后一个epochs结束后，其运行结果以TXT格式的文件输出保存。图6是以上述示例为输入的计算输出结果的TXT文件的部分内容截图。

图6 运行结果示例

分析图6的输出结果。截图中的第一行，是Category为physics（物理学）的类别，通过本算法的挖掘后，其代表性术语有：dark_matter（暗物质）、particle_physics（粒子物理学）、colliders（对撞机）等。再如截图中的第三行，是Category为computer（计算机）的类别，通过本算法的挖掘后，其代表性的术语有：open_source（开源）、programming（编程）、library（库）、java、package（包）等。

最终的计算结果，可以整合到图4的“树”结构中。由于输出的结果太多，绘制后的树结构太庞大，图7只给出了physics子树的部分结果。

图7 “physics”子树的部分结果示例

2. 算法的具体应用

该算法的主要任务是根据用户提供的类别层次结构，从语料库中挖掘一组代表性术语，解释每个类别。在具体应用方面，主要应用在主题挖掘、政治文本分析、实体消歧和关系抽取等领域。

（1）自动主题发现（Automatic Topic Discovery）

即根据用户选择的几个主题，挖掘与该主题相关的、隶属于该主题的其他主题，帮助用户理解其感兴趣的主题。比如用户选择了“sport”主题，则可以给该用户推荐“tennis”、“soccer”等相关的主题。

（2）政治文本分析（Political Text Analysis）

即从政治行为者的声明、新闻等文件中，根据一定的层次结构，挖掘该文件的优先事项，帮助更好地理解政治文件的主题和主旨。比如在立法中，在投稿和新闻文件中使用此模型，有助于立法者抓住比如经济、教育等主题领域的重点，从而更好地与民众进行沟通。

（3）实体消歧（Entity Disambiguation）

即对实体进行注释，来消除实体引用的歧义。比如，当我们知道用户正在检索关于篮球运动员Michael Jordan的页面，那么我们只向该用户展示与运动员Michael Jordan相关的附加文章，而不显示与机器学习研究员Michael Jordan的附加文章。实体消歧的主要任务是确定各项子内容与当前的哪个主题相关联。

（4）关系抽取（Relation Extraction）

关系抽取是信息抽取领域中的重要任务之一，即抽取文本之间的实体对，以及识别实体之间的语义关系。其反应的是事物与事物之间的联系。

3. 与算法相关的现有算法

与本文算法相关的现有算法诸多，大致可以将其分为三类：第一类是分层主题模型，即通过捕获主题之间的相关性来扩展其平面对应主题；第二类是文本嵌入模型，即通过单词、短语、句子等的分布式表示学习，有效地捕获文本的语义相似度；第三类是树嵌入模型，其基于双曲嵌入空间的研究，通过模拟树的结构来进行层次主题挖掘。每个分类下的现有代表性算法如下。

1、分层主题模型

（1）hLDA（hierarchical Latent Dirichlet Allocation）

hLDA用一个非参数概率模型，即嵌套中国餐馆过程（Chinese Restaurant Process，CRP）来推广隐含狄利克雷分布（Latent Dirichlet Allocation，LDA），该模型归纳了一条从根主题到叶主题的路径，并通过从沿着这条路径的主题中抽取单词来生成文档。

（2）hPAM（hierarchical Pachinko Allocation Model）

hPAM是建立在弹珠机分布模型（Pachinko Allocation Model，PAM）上的，该模型将文档建模为一组主题层面的分布混合，通过有向无环图来表示主题的共同出现。hPAM通过狄利克雷（Dirichlet）多项式参数的内部节点分布来表示主题层次结构。

（3）HSLDA（Hierarchically Supervised Latent Dirichlet Allocation）

在文档生成期间，HSLDA通过在标签空间中引入广度优先遍历来扩展sLDA（supervised LDA）。

（4）SSHLDA（Semi-Supervised Hierarchical Latent Dirichlet Allocation）

SSHLDA是一个半监督的层次主题模型，它不仅可以挖掘标签中的新的潜在主题，而且可以利用观察到的标签层次结构中的信息。

（5）CorEx（Correlation Explanation）

种子引导的主题模型框架CorEx的任务是学习最大化总相关性的信息主题。其通过保存种子相关信息来合并种子词，能够通过潜在的因素依赖关系生成主题层次结构。

2、文本嵌入模型

（1）Poincaré GloVe

GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计的词表征工具。Poincaré GloVe采用GloVe模型，在Poincaré空间中训练单词嵌入，自然地捕获单词之间潜在的层次语义关系。

（2）CatE

文本嵌入模型CatE提出了一种判别性文本嵌入方法，在给出了一组类别名称作为用户指南的情况下，用于类别代表词检索。这种方法与本文的方法类似，但是CatE对范畴语义进行了互斥假设，当范畴呈现层次化结构时，这一假设就不成立。

3、树嵌入模型

（1）Poincaré Embedded

Poincaré Embedded的任务是对Poincaré球中的层次结构进行建模。由于嵌入距离直接对应于树的距离，所以Poincaré Embedding可以通过嵌入WordNet的树结构来推断词汇蕴涵关系，或者通过嵌入网络来进行链接预测。

（2）Lorentz

Lorentz模型在双曲空间中引入了一种更有原则的优化方法来学习树的结构：提出了双曲锥模型来建模层次关系，并以封闭的形式表达出最优形状。然而，这种双曲树嵌入方法并不适用于将类别数嵌入到与词联合的空间中，因为双曲嵌入保留了树的绝对距离，即相似的嵌入距离意味着相似的树距离。在一个类别树中，尽管树距离相同，但低级别的兄弟类别通常比高级别的同类类别在语义上更相似。