细粒度文本分类相关论文推荐

最新推荐文章于 2024-05-05 15:27:41 发布

原创

最新推荐文章于 2024-05-05 15:27:41 发布 · 1.4k 阅读

12 ·

CC 4.0 BY-SA版权

本文介绍了细粒度文本分类的相关论文，包括WSABIE、Embedding Methods、Hierarchical Category Structure等，探讨了如何利用上下文、标签嵌入和层次结构来改进实体分类。论文中提出的方法涉及深度学习、预训练模型和自顶向下分类策略，以解决噪声样本和多层次标签的挑战。

导读

前一段时间在研究实体识别的任务，因为标签的设计觉得细粒度文本分类应该会对任务的效果有所提升，于是搜集了一些细粒度文本分类的论文，本文将是对这些论文的总结和思考。本文将简单介绍论文中模型的结构和设计思路，具体的一些细节在之前的文章中我们有详细介绍，如果有兴趣大家可以点击相关链接。

背景

实体分类是对一篇文章中的实体进行分类的任务，例如"《秘密森林》由韩国演员曹承佑和裴斗娜主演"中曹承佑作为实体的标签就是"演员"。实体分类通常会在关系抽取，机器翻译，知识问答等任务中起到关键作用。目前比较常见的有关NER的任务针对的标签基本都小于20个，标签之间基本是比较互斥的，例如person，organization，place等。但是对于关系抽取等任务来说，细粒度的实体标签有助于效果的提升，因为细粒度的标签可以过滤掉不符合关系限制的实体。

在细粒度实体识别中，由于标签结构的划分，同一个实体可能具有不同的角色，例如下面两句，第一句中曹承佑对于普通观众来说就是一名影视演员，但是第二句中因为提到了他在音乐剧界的地位，这里的曹欧巴很明显就是音乐剧演员。

曹承佑这几年演技一直在线，可惜颜值不复当年
曹承佑是韩国音乐剧排名第一的代表人物

因为同一个实体在不同的语境中可能会具有不同的角色，细粒度实体分类的困难也是很明显的，一是在训练样本中噪音比较多，因为通过规则标注的样本很难准确判定出同一个实体在不同的语境中的角色，二是如果为了保证样本的准确率使用人工标注，那么成本将会非常高。

为了解决这些问题，常见的FETC任务通常会将借鉴自动标注算法WSABIE并将关注的实体和上下文以及标签映射到同一个低维空间，然后设计不同的神经网络进行计算，在选择标签的时候常见的方法有使用softmax+阈值的方法，如果为了考虑标签类型的一致性，部分论文会采用自顶向下的搜索模式。下面我们来介绍FETC任务中比较经典的几篇论文。