Abstract
在本文中,我们考虑了一个具有更大应用潜力的真实场景,即零样本和小样本的立场检测,它可以在没有或很少训练例子的情况下识别广泛的主题的立场。传统的数据驱动方法不适用于上述零样本和少样本的场景。对于人类来说,常识知识是理解和推理的关键因素。在没有标注数据和用户立场的隐晦表达的情况下,我们认为引入常识性的关系知识作为推理支持,可以进一步提高模型在零样本和少样本场景下的泛化和推理能力。具体地说,我们引入常识知识增强模型,利用关系知识的结构层和语义层信息。大量实验表明,该模型在零样本和小样本立场检测任务上的性能优于现有的方法。
Introduction
立场检测的目的是将文本作者对特定主题的态度或立场作为该集合中的类别标签:{赞成,反对,中立}。按照惯例,该任务被设计为学习针对同一主题的特定目标分类器。之后,交叉目标立场检测作为初始通用立场检测的一个子类出现,其中分类器从不同但密切相关的主题(例如,训练分类器关于“希拉里克林顿”和预测“唐纳德特朗普”)。然而,无论是针对目标的立场检测模型还是跨目标的立场检测模型,都需要大量的人工标注的训练示例,并且标注数千个新主题的数据既耗时又昂贵。
在本文中,我们专注于零样本和小样本立场检测,这是一个任务,用于在没有或很少训练示例的情况下对大量主题的立场进行分类。零样本和小样本立场检测的一个关键挑战是模型的泛化能力。然而,以往的大多数方法的立场检测仅依赖于训练数据,在零样本和小样本场景中未能取得令人满意的结果。另一个突出的挑战是隐式地表达用户的立场,主题并不总是出现在文档中,这导致了在主题和文档之间直接建立联系的困难。
以图1为例,文档中没有提及“稳定性”这一主题,相关知识可以补充(Stability, Antonym,扰动)和(RelatedTo, change)等明确的推理证据的不足。尽管试图引入关于文档中每个单词的外部词级语义和情感知识忽略了主题和文档之间的全局关系。
为了进一步应对上述挑战,我们建议从外部结构知识库ConceptNet引入常识知识。我们认为,从ConceptNet中提取的关系知识图可以促进文档与主题之间的关系信息的传递和相应立场的推断,从而进一步减少对标注数据的依赖。具体来说,我们引入了一个基于图卷积网络的常识知识增强模块,利用关系子图的结构层和语义层信息,可以进一步增强模型的泛化和推理能力。大量实验表明,该方法在零样本和小样本立场检测方面的性能优于现有的基准数据集模型。
Method
1、问题定义
形式上,D = 表示包含N个样本的零镜头姿态检测数据集,其中xi为文档,ti为对应主题,yi为姿态标签。该任务的目标是获得给定xi和ti的立场标签𝑦~。为了连接文档和主题,我们引入了一个从外部KG中提取的常识知识子图G = (V, E),其中V是概念的子集,E表示概念之间的关系。
2、BERT编码
我们使用预训练的语言模型BERT对文档x和主题t进行编码。具体来说,我们将x和t以以下格式连接成一个输入序列:[CLS] x [SEP] t [SEP]。
然后,输入序列送入BERT获取上下文表示X = {x1 , · · · , xm}文档和T = {t1 , · · · , tn}为主题,m和n的长度是分别文档和主题。最后,我们可以得到文档和主题的平均表示ˆx和ˆt。
3、Knowledge Graph Encoding with CompGCN
在介绍我们的图编码器之前,让我们首先描述从外部知识图构造关系子图的过程。我们采用ConceptNet作为知识图库G. ConceptNet由数百万个关系三元组组成,共包含34个关系。每个三元组都表示为R = (u, r, v),其中u是头部概念,r是关系,v是尾部概念。我们将文档和主题中的短语与来自ConceptNet的提到的概念集(𝐶𝑑和𝐶𝑡)进行匹配。为了从G中提取关系子图G = (V, E),我们找到𝐶𝑑中的概念到𝐶𝑡中的概念的两跳有向路径。路径上的所有概念构成概念集合V和E,由V内概念之间的所有边组成。此外,我们在任意概念对之间添加反向关系边,以改善信息流。
现有的关于GCNs的研究主要集中在非关系图上。因此,为了整合常识关系知识,我们利用了CompGCN ,这是图卷积网络(GCNs)的一种变体,它联合嵌入了子图G的节点和关系。图编码器由L层叠加的CompGCN层组成。节点和关系的特征均通过TransE (Bordes et al., 2013)嵌入进行初始化。我们通过聚合节点的邻居及其关系边的信息来更新节点表示。形式上,节点的更新方程定义为:
这里φ是一个基于平移理论(Bordes et al., 2013)的实体-关系复合运算,其形式为减法:
将关系嵌入变换如下:
然后,我们得到Cd和Ct的节点表示Hd和Ht。为了聚合合理的关系信息,我们通过执行缩放的dot - product attention计算Cd的平均关系表示ˆd,以ˆt为键,Hd为查询和值。同样,我们得到Ct的平均关系表示ˆg。
4、立场分类
我们将纯文本的表示(即ˆx和ˆt)与关系表示(即ˆd和ˆg)连接起来,以充分利用文本信息和图结构信息。然后,通过softmax函数将连接的表征输入到双层多层感知(MLP)中,以预测立场标签:
最后,利用多类交叉熵损失对网络参数进行训练。