实体对齐算法_细粒度实体分类（2）——基于神经网络的细粒度实体分类方法...

最新推荐文章于 2024-04-05 13:30:00 发布

喵羽

最新推荐文章于 2024-04-05 13:30:00 发布

阅读量700

点赞数

文章标签：实体对齐算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30425639/article/details/112356356

版权

本文介绍了细粒度实体分类任务，它是一种特殊的文本分类，目标类型构成类型树。文章讨论了表示方式，如早期的手工特征和深度学习方法，特别是Attentive方法。此外，还探讨了推断策略，包括独立推断、自上而下搜索和单标签分类。深度学习在表示和推断方面的应用还有待进一步研究。

摘要由CSDN通过智能技术生成

概览

关于细粒度实体分类的定义可以参考https://zhuanlan.zhihu.com/p/97326336，这里我们的细粒度实体分类(FET)特指句子级细粒度实体分类。

显然，细粒度实体分类的本质是文本分类。与一般的文本分类设定的不同在于：

该任务的目标类型通常组成了一颗类型树，在推断方法上与一般的多标签分类或者单标签分类有所不同——推断方式；
该任务的表示需要考虑提及与上下文，这使得嵌入(Embbed)-上下文建模(Encode)-聚集(Aggregation)这种模式并不完全符合问题定义——表示方式；
远程监督——该任务的训练语料并不容易构建，存在两方面的问题：

标注难度高，很多标签存在歧义和重复，比如TAC 2019采用WordNet作为目标类型集合时，我们发现存在一些很难区分的定义，比如City , Town, Region108630985 ,GeographicalArea108574314,Tract108673395 ,Location100027167。又比如某些地区是否是Country，不同的人可能会有不同的定义；实际上在tac 2017中比赛官方为了五种类型的标注就给了30还是60页的注释标准，对于类型数量从49-上万不等的细粒度实体分类来说，这种注释标准是不太可行的；
由于类型数量大，又需要更多的训练语料。

远程监督使得模型的训练方式与通常的文本分类端到端的方式并不相同。

囿于篇幅，我将在下一次的文章中说明远程监督在细粒度实体分类中的应用。这里首先说明任务表示的构建，然后说明常用的推断方法。

表示方式

在早期的细粒度实体分类方法中，研究人员根据数据集的特点，通过手工设计特征来得到提及的样本表示，然后使用一些常用的分类算法来为实体提及标注实体类型。Ling等人^[1]在FIGER数据集上构造了十种特征用于提及的样本表示，包括提及词、提及词形（有无大小写、是否全为大写等）、提及词性、N-gram特征、提及的布朗聚类id等。Gillick等人^[2]在OntoNotes数据集上加入了一些独有特征包括提及核心词的前三个字母、文章的体裁等。

手工特征的设计通常与数据集深度耦合，并且一些手工特征比如词性、依存关系需要通过外部工具得到，不可避免的带来传递误差的问题。又随着深度学习在NLP领域的大行其道，很多学者开始在FET领域采用深度学习方法。（主要是因为深度学习真香！！！

这里简单介绍一个Shimaoka等人^[3]提出的Attentive方法&#x

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。