引入知识注意力机制的实体分类

实体分类相关论文阅读第三篇:

Improving Neural Fine-Grained Entity Typing With Knowledge Attention

前两篇文章链接:引入注意力机制的细粒度实体分类    细粒度实体类型分类的神经网络结构

这篇论文来自清华大学刘知远老师,发表于2018年。

关于这篇论文还是有许多没有读懂的地方,暂时先简要的说一下论文的核心:知识是怎样被引入注意力神经网络的。

首先贴一下整体的模型:


不难看出,和前两篇论文的模型相比,最大的区别还是右侧Query Vector,也就是将知识库知识引入注意力机制。

首先我们看论文中提到的传统的注意力机制:


这种注意力机制和前两篇论文没有什么不同,输入是由双向LSTM得到的上文或下文矩阵,构造了一个双层神经网络。

我们再对其做一个升级:


在这个注意力计算公式中,我们增加了一个输入,即实体的向量表示(也就是实体的词向量的均值),而f()这个函数的选取我则是完全不理解是什么意思~作者取了x^2,因为其恒正,并且易求导。

但作者并不满意,对这个公式再进行了升级,得到了如下公式:


显而易见,这个公式和上面的公式的区别在于将实体向量的表示由词向量的均值变为了entity embedding,的确词向量的均值并不能很好的反应实体的语义,显然entity embedding是一种更好的引入实体语义的方法。

之后作者提到了在测试集上遇到的问题(可能是因为我不大懂transE模型,不大理解他的意思,按照我的理解说一下,中间可能会有错误)


作者指出,这种方法在测试的时候会遇到问题,很多情况下,在测试集中我们会遇到这样的实体,它们无法匹配已有的实体(向量距离过大),甚至是根本没有在知识库中,在这种情况下,我们借用与它相关的实体表示也是很困难的事情,想要通过联系的方式找到也比较困难。所以作者决定用整个的文本信息来对所有实体信息进行训练,作者通过公式(10)给出了实体的向量表达形式,并将公式(11)加入到如下的损失函数公式中去:


所以这个地方我就不大能理解。也就是有上述公式TransE模型就不再用了?这个训练是在整个语料库进行训练?整个训练集测试集都包括进去?

另一种理解方式是e是训练集中的实体,e^是测试集中的相关实体,作者通过TransE的模式训练训练集中的实体,用e^来训练测试集中的实体。

继续往下看这篇论文:

为了避免歧义,我们要选取最恰当的那个实体:


对于每一个e^,查看其和其他实体的距离,当距离小于一个规定值并且是最小的时候,我们用这个实体e来代替e^,如果距离大于了规定值,那么我们只能选择直接用e^来做相关的运算操作。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值