概览
关于细粒度实体分类的定义可以参考https://zhuanlan.zhihu.com/p/97326336,这里我们的细粒度实体分类(FET)特指句子级细粒度实体分类。
显然,细粒度实体分类的本质是文本分类。与一般的文本分类设定的不同在于:
- 该任务的目标类型通常组成了一颗类型树,在推断方法上与一般的多标签分类或者单标签分类有所不同——推断方式;
- 该任务的表示需要考虑提及与上下文,这使得嵌入(Embbed)-上下文建模(Encode)-聚集(Aggregation)这种模式并不完全符合问题定义——表示方式;
- 远程监督——该任务的训练语料并不容易构建,存在两方面的问题:
- 标注难度高,很多标签存在歧义和重复,比如TAC 2019采用WordNet作为目标类型集合时,我们发现存在一些很难区分的定义,比如City , Town, Region108630985 ,GeographicalArea108574314,Tract108673395 ,Location100027167。又比如某些地区是否是Country,不同的人可能会有不同的定义;实际上在tac 2017中 比赛官方为了五种类型的标注就给了30还是60页的注释标准,对于类型数量从49-上万不等的细粒度实体分类来说,这种注释标准是不太可行的;
- 由于类型数量大,又需要更多的训练语料。
远程监督使得模型的训练方式与通常的文本分类端到端的方式并不相同。
囿于篇幅,我将在下一次的文章中说明远程监督在细粒度实体分类中的应用。这里首先说明任务表示的构建,然后说明常用的推断方法。
表示方式
在早期的细粒度实体分类方法中,研究人员根据数据集的特点,通过手工设计特征来得到提及的样本表示,然后使用一些常用的分类算法来为实体提及标注实体类型。Ling等人[1]在FIGER数据集上构造了十种特征用于提及的样本表示,包括提及词、提及词形(有无大小写、是否全为大写等)、提及词性、N-gram特征、提及的布朗聚类id等。Gillick等人[2]在OntoNotes数据集上加入了一些独有特征包括提及核心词的前三个字母、文章的体裁等。
手工特征的设计通常与数据集深度耦合,并且一些手工特征比如词性、依存关系需要通过外部工具得到,不可避免的带来传递误差的问题。又随着深度学习在NLP领域的大行其道,很多学者开始在FET领域采用深度学习方法。(主要是因为深度学习真香!!!
这里简单介绍一个Shimaoka等人[3]提出的Attentive方法&#x