GNN NLP(16) Hierarchical Multi-label Text Classification with Horizontal and Vertical-CSDN博客

本文链接：https://blog.csdn.net/qq_36618444/article/details/122838348

该研究针对分层多标签文本分类任务，提出了一种松散耦合的图卷积神经网络(LCGCN)，以捕捉单词、文档及类别间的垂直和水平相关性。LCGCN由核心图和文档-单词图组成，分别用于学习单词和类别的表示以及文档和单词的关系。通过建模类别间的水平和垂直相关性，提高了分类的准确性。实验结果显示，这种方法有效地利用了标签的相关性，提升了HMTC任务的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
EMNLP2021

Introduction

分层多标签文本分类(HMTC)处理具有挑战性的任务，其中一个实例可以同时分配给多个层次结构的类别。以往的大多数研究要么专注于将HMTC任务简化为一个扁平的多标签问题，忽略了垂直类别相关性，要么利用不同层次上的依赖关系，而没有考虑同一层次上类别间的水平相关性，这不可避免地会导致基本信息的丢失。因此，本文设计了一个松散耦合的图卷积神经网络Loosely Coupled Graph Convolutional Network(LCGCN) 作为表示提取器，以获取单词、文档的表示，更重要的是，获取类别的级别表示。之后，利用学习后的类别表示方法来捕获类别层次间的垂直相关性，并对水平相关性进行建模。最终，设计了一种混合预测方法对最终的文档进行标签预测。
在这里插入图片描述
举例说明如图1，蓝色表示NLP相关的标签；红色表示CV。 $C^2$ 层级的标签包含多标签分类以及层次分类，显然这两个标签不但都属于NLP（垂直相关），本身也具备一定的关联性（水平相关），因此本文旨在建模标签的这种相关性。

METHODOLOGY

Problem Definition

首先，需要明确定义标签的层级关系 $H$ 。假定标签体系内一共有 $H$ 层，每一层的标签可以表示为 $C=(C^1,...C^H)$ 。而其中， $C^h=(c_1,c_2,...)\in \{0,1\}^{|C^h|}$ 表示第 $h$ 层的标签。待分类的文档可以表示为：
在这里插入图片描述
每一个文档都会被分配一个层级的标签。

Loosely Coupled Graph Convolutional Neural Networks

在这里插入图片描述
构造图的一个自然思想是，根据文档节点和单词节点的隶属关系、文档节点和类别节点之间的对应关系以及单词节点和类别节点之间的对应关系，构建一个包含所有信息的大型图。但是，将文档、单词、标签通过一个图来表示，由于边的数量太多从而不利于特征的学习并且很容易造成过平滑。因此，本文提出了LCGCN，它由一个单独的核心图和一个文档图组成，核心图包含单词和类别，文档图包含文档和单词。核心图用于提取单词和类别的嵌入，文档-单词图用于捕获文档和单词之间的关系。
核心图表示为 $M_{Core}$ ，它包含了单词节点以及标签类别，因此包含三种不同类型的边：word-word, category-word, and category-category。单词之间的边可以很容易地使用PMI进行计算，类别和单词之间的权重可以通过如下方式计算：
在这里插入图片描述
$p (j ∣ i)$ 表示单词 $j$ 与 $类别 i$ 出现的概率， $p (j)$ 则表示单词在预料中出现的总体概率。至于类别间的权重，是根据训练数据中类别的共现来计算的。
之后，根据文档节点与单词节点之间的依赖关系构造文档-单词图（图中的 $M_{W\&D}$ ）。文档节点和单词节点之间的权重计算为术语频率逆文档频率(term frequency-inverse document frequency, TF-IDF)。
之后，单词和类别的嵌入很容易通过 $M_{Core}$ 进行学习：
在这里插入图片描述
$H^{(0)}$ 由预训练的Glove获得。然后，在得到了单词的表示之后，可以通过聚合得到文档的表示：

其中 $E_{doc}\in R^{M×d}$ 。通过叠加多个LCGCN层，可以合并高阶邻域信息以获得高质量的表示。

Category Correlations

Horizontal Category Correlations

在每个类别层次结构级别上，一个给定的文档可能与多个类别相关联，因此水平的相关性可以通过如下方式计算：
在这里插入图片描述
产出一个相关性矩阵 $S^h\in R^{|C^h|×|C^h|}$ ， $\lambda_s^h$ 是一个参数，表示水平相关性的权重。使用相关性矩阵对标签进行增强：

Vertical Category Correlations

之后是考虑上一层的标签。假设 $\hat{y}^h$ 是上一层的标签预测结果，可以利用 $\hat{y}^h$ 对所有类别在第 $h$ 层次上的表示进行积分：
在这里插入图片描述
得到当前层类别的表示。之后，整合文档嵌入和类别信息：

Loss Function

预测框架由每个层次的一系列局部分类器和整个层次结构的一个全局分类器组成，因此损失函数也分为局部损失和全局损失。局部概率预测为：
在这里插入图片描述
全局的文档表示是每一层的局部表示的聚合：

之后全局的概率预测为：

最终将局部和全局整合得到新的分布 $P_F$ ：

损失函数则是所有聚合和全局的交叉熵损失：