Embedding Methods-从相似度出发进行细粒度文本分类

最新推荐文章于 2024-05-23 11:20:43 发布

big_matster

最新推荐文章于 2024-05-23 11:20:43 发布

阅读量616

点赞数 1

分类专栏：顶刊论文思维文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuxingseng123/article/details/127630184

版权

背景

实体分类是指给一个实体一个指定的标签，这在关系抽取，知识问答等任务中非常重要。一般实体分类的标签都小于20个，但是当标签之间具有层级结构，同一个实体在不同的上下文中便可能具有不同的角色。例如：（同一个实体在不同上下文中便可能具有不同的角色）

Madonna starred as Breathless Mahoney in the film Dick Tracy
Madonna signed with Sire Records in 1982 and released her eponymous debut album the next year.
这两句话中，第一句的Madonna因为主演了电影，她的分类应该是actress，而下一句Maddona推出了新专辑，这里她的分类应该是musician。

对于细粒度实体分类来说，一个最大的困难是标注文本的收集，因为在标注的时候不考虑上下文的话可能会如上文的例子一样，会引入很多噪音。实际上一个优秀的细粒度实体分类模型应该是可以处理这些噪音并且在训练过程中发现label之间的关系的。

针对这些问题，本文使用ranking loss来解决这些问题，下面我们来看看文中是怎么解决的吧

模型

学习目标

文中为了平衡细粒度标签之间的关系，将输入的文本信息和标签信息全都映射到一个低维空间 $R^H$ 中，其中 $H$ 表示embedding的维度。映射方法如下图所示，我们对输入的文本信息和标签进行线性转换，将其映射到同一个低维空间。这样，标签之间的关系可以通过他们在低维空间的距离进行衡量，标签越不相关，那么他们的距离越远。(相似度衡量关系）
对于一个实体和标签的距离如何衡量呢？既然我们已经有了他们在低维空间的向量，那么我们完全可以使用向量的点积来衡量他们的距离即：
$\cdot g(y_t,B) = Ax \cdot By_t$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

big_matster 您的鼓励，是给予我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。