Embedding Methods-从相似度出发进行细粒度文本分类

本文介绍了细粒度实体分类的挑战,并提出了一种使用-ranking loss的方法,通过将文本和标签映射到低维空间,利用Kernel函数处理标签关系。模型在GFT和FIGER数据集上表现出色,证明了细粒度分类的有效性。
摘要由CSDN通过智能技术生成

知乎主页lynne阿黎请大家不吝关注

背景

实体分类是指给一个实体一个指定的标签,这在关系抽取,知识问答等任务中非常重要。一般实体分类的标签都小于20个,但是当标签之间具有层级结构,同一个实体在不同的上下文中便可能具有不同的角色。例如:

  • Madonna starred as Breathless Mahoney in the film Dick Tracy

  • Madonna signed with Sire Records in 1982 and released her eponymous debut album the next year.

这两句话中,第一句的Madonna因为主演了电影,她的分类应该是actress,而下一句Maddona推出了新专辑,这里她的分类应该是musician。

对于细粒度实体分类来说,一个最大的困难是标注文本的收集,因为在标注的时候不考虑上下文的话可能会如上文的例子一样,会引入很多噪音。实际上一个优秀的细粒度实体分类模型应该是可以处理这些噪音并且在训练过程中发现label之间的关系的。

针对这些问题,本文使用ranking loss来解决这些问题,下面我们来看看文中是怎么解决的吧

模型

1. 学习目标

文中为了平衡细粒度标签之间的关系,将输入的文本信息和标签信息全都映射到一个低维空间

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值