Abstract & Introduction & Related Work
-
研究任务
命名实体识别和分类 -
已有方法和相关工作
-
面临挑战
-
创新思路
- 提出了第一种用于zero-shot的NERC的方法
- 引入一个新的架构,利用许多实体类别的文本描述自然发生的事实
-
实验结论
在训练过程中被观察到的非实体的词有可能属于其中一个测试类别,基于这种观察我们提出几种不同的架构,基于交叉注意力在语句和类型描述之间用transformer,结合预训练模型
我们通过以下方式探索对负类的建模
- 使用对负类的描述
- 直接建立负类的模型
- 使用为对应于类型的类所产生的表征来建立负类的模型
Zero-shot NERC
对于每一个类型d,交叉注意力编码器生成一个向量表示v,对于每一个在语句s中的单词w
进行一个线性变换,o表示单词t有多大可能属于实体类c
为了能不仅仅是分类实体,并且识别它们,每一个token的得分跟属于负类的得分拼接起来,对应于不属于所考虑的任何类型:
选出一个得分最高的类
Cross-attention Encoder
用bert
Modelling the negative class
正如第1节所讨论的,非实体类创建了一个具有挑战性的设置。在训练期间观察到的非实体单词可能属于其中一个测试类。
Description-based encoding
然而,这种方法要求描述的东西不是而不是是。这使得在实践中很难就最合适的描述做出明智的决定。另外,非实体的标记很可能在训练和测试中有所不同,因此固定的描述不太可能表现良好
Independent encoding
负面类可以直接建模,因为它是在训练数据中观察到的。因此,在不考虑任何描述的情况下,每个标记在句子的上下文中被表示为否定类,而不是探索交叉注意力
Class-aware encoding
基于描述的编码和独立编码没有对以下事实进行建模,即在zero-shot的NERC中,并非每一个在训练期间被标记为非实体的实体在测试期间都是非实体。相反,我们建议通过结合交叉注意力编码器生成的其他类别的表征来为负类建模:
v
t
,
c
0
,
.
.
.
,
v
t
,
c
k
v_{t,c_0}, ..., v_{t,c_k}
vt,c0,...,vt,ck。然后,每个向量被线性转换,使用
w
n
e
g
−
c
l
w_{neg-cl}
wneg−cl,然后串联到一个特征图m
Training
为了防止注意力编码器在少量类别描述上过拟合,我们使用一个实体屏蔽形式的正则器,这种正则化避免了词汇记忆,并鼓励模型学习实体上下文与类别描述的亲缘关系,同时仍然学习纳入实体本身的各个方面(例如大写字母、形状、形态),并将它们与类型描述联系起来
因为负类标签不平衡,使用
Evaluation setup
Experiments
Conclusions & Future work
本文探讨了带有实体类型描述的零点拍摄NERC的任务,将知识从观察到的类转移到未见的类。我们通过提出一个多类架构来解决零点拍摄NERC的具体挑战,该架构使用类意识编码来为负面类建模,从而使非实体类的定义不明确。这些模型基于OntoNotes和MedMentions数据集的零次改编进行了评估。结果显示,所提出的模型优于强大的基线,并进一步表明高质量的实体描述(即注释指南)是将知识从观察到未见的类转移的有效途径。未来的工作将旨在纳入预测的标签之间的依赖关系
Remark
这篇文章是真的搞,NER就NER,非要说个NERC,注意力就注意力,非要说个交叉注意力,显得自己很novel是吗?好无语