EMNLP22 外部知识注入:Prompt-Learning for Short Text Classification

Prompt-Learning for Short Text Classification

任务形式:短文本分类问题,但是短文本的短长度、特征稀疏性和高模糊性给分类任务带来了巨大挑战。

1以往的工作,在注入外部信息上

大多数提示学习方法手动扩展标签词仅考虑类别名称以纳入完形填空式预测中的知识,这将不可避免地导致分类任务中的遗漏和偏差。

提示学习方法要么手动扩展标签词 [Schick and Schutze, 2020b],要么只考虑类别名称以纳入完形填空式预测中的知识 [Hu et al., 2021]。人工设计的标签词明显受先验知识的限制,可能导致知识扩展的遗漏和偏差。其他一些作品试图结合外部知识并对文本分类的扩展标签词进行去噪。然而,这种有知识的方法只考虑了类名而忽略了短文本中的实体和概念信息
研究出发点:融入短文本中的概念知识,不仅仅考虑分类中的类别知识

2 文章模型

所提出的短文本分类(PLST)的提示学习方法结合了来自 Probase 等开放知识图谱的外部知识,以扩展标签词空间。更具体地说,首先从 Probase 等开放知识图谱中检索与短文本中的实体相关的前 N ​​个概念。然后计算检索到的概念与嵌入空间中的类标签之间的距离,以进行标签词细化{}(应该是通过计算概念和类别之间的距离,用来确定短文本类别的)。我们的方法的优点是它通过考虑短文本本身而不只是类名来生成更有效的标签词

实施

1.基于提示学习的短文本分类问题,将分类问题建模为填空问题,表示为预测mask位置的类别词。
在这里插入图片描述
2. 选择Probase1作为外部知识源,它是微软构建的一个开放的Knowledge Graph
每个主题的标签名称 y 用作锚词 (?哟有问题吧,不是以text中的实体概念为锚吗???),从 Probase 中检索前 N 个概念,按概率排序,可以表示为 N (v)。因此,扩展的标签词集可以表示为 Vy = {y} ∪ N (v),这是一个将标签词集映射到一个特殊类别的表达器映射
3.虽然对概念按照概率进行了排序,但仍然存在噪声。
在嵌入空间中,计算每个展开的标签词和每个标签名称y之间的距离dist(Vy, y)。这样将分类概率较高的词聚类到每个主题的标签名称中,既考虑了层次概念本身,又能契合特殊类别的标签词。最后,我们从每个类别的 dist(Vy, y) 中选择前 M 个词作为 verbalizer refinement

4.在最终的 verbalizer 构造之后,我们需要将每个细化标签词的预测概率映射到特殊类别,这可以记为 verbalizer 使用的目标函数 g。由于可以假定最终语言化器中的每个词对预测的贡献相同,因此预测分数的平均值用于文本分类,即

在这里插入图片描述
在这里插入图片描述

很奇怪,这篇文章method部分和在摘要部分的描述感觉差别很大,和模型实施图感觉差别也很大,是我理解的问题?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值