A Combination of RNN and CNN for Attention-based Relation Classification论文阅读笔记

摘要

关系分类在自然语言处理(NLP)领域中起着重要作用。先前有关关系分类的研究已经证明了使用卷积神经网络(CNN)和递归神经网络(RNN)的有效性。在本文中,我们提出了一个结合RNN和CNN的模型(RCNN),这将充分发挥它们各自的优势:RNN可以学习时间和上下文特征,尤其是两个实体之间的长期依赖性,而CNN可以捕捉更多潜在功能。我们在SemEval-2010 Task 8数据集1上进行了实验,结果表明我们的方法优于大多数现有方法。

1、Introduction

关系分类的任务是提取两个实体之间的语义关系。通常,该任务仅考虑两个实体的关系。因此,任务的输入是带有已注释的成对实体的句子。而输出是两个实体之间的关系。例如,以下面的句子为例。

The <e1> deficits </e1> are caused by <e2> people </e2> saving too much of their money.

<e1>和<e2>是Cause-Effect的关系

传统方法的弊端:

传统的基于词汇资源手动特征的分类方法通常利用模式匹配,难以实现高性能。

这些方法的缺点是,许多传统的NLP系统(如命名实体,词性标签和最短依赖路径)用于提取高级特征,从而导致计算成本增加和附加的累积错误。

另一个缺点是手动设计功能很耗时,并且由于训练数据集的覆盖率较低,因此泛化性能很差。

做的工作:

本文提出了一种新的名为RCNN的关系分类模型。我们的模型首先将输入句子映射到低维向量。然后,我们利用双向长期短期记忆网络(BLSTM)来捕获句子中单词的上下文和时间特征。另一方面,在BLSTM之后,我们使用CNN捕获更多功能。结果,CNN的输入就是BLSTM的输出。该模型仅利用NLTK工具获得的POS标签功能。

2、模型

                                        图1-网络结构

模型主要由六个部分组成。

  • 输入层:原始输入。有些句子包含标记的实体。

  • 嵌入层:将句子映射到低维向量,主要由单词嵌入,位置嵌入和POS标签嵌入组成。

  • LSTM层:使用LSTM获得包含时间和上下文信息的高级功能。

  • 注意层:通过乘以权重向量来注意不同的单词。

  • 卷积层:在关注层之后,将词级特征向量馈入CNN中,以获得更丰富的特征。

  • 完全连接的层和s​​oftmax层:遍历各层之后,我们可以从结果中确定最终关系

2.1输入表示

模型的输入是句子的原始单词。在嵌入层中,将句子映射到低维向量。我们利用三个通道来表示向量,它们分别是单词,位置和POS标签。

2.1.1词嵌入。词嵌入的目的是将词转换为低维且密集的向量。对于两个相似的词,它们对应的词向量也相似。因此,词向量技术可以捕获词的句法和语义信息。给定一个由m个单词组成的句子x:x={w1,w2...,wm},每个词wi由实值向量表示。然后将句子映射到嵌入矩阵

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值