Attention-Based Bidirectional Long Short-Term Memory for Relation Classification

论文题目:《Attention-Based Bidirectional Long Short-Term Memory for Relation Classification》
@TOC应用领域:NLP的关系分类
(关系分类任务是寻找名词对之间的语义关系。是一项语义处理任务,对许多下游任务如信息抽取,问题回答等非常有用。)
(例如:该句包含了名词flowers和chaple的实体-目的地关系之间的例子。flowers are carried into the chaple )
(挑战:重要的信息可以出现在句子中的任意位置。)
@TOC以前的方法:目前SOAT系统依赖于词汇资源wordnet或者像依存解析树和命名实体识别等NLP系统来获得更高的特征。模式匹配的方法。深度学习中使用CNN进行关系分类,但CNN不适合学习远距离语义信息。RNN有梯度消失问题。
缺点:计算成本增加和额外的传播误差;手工设计特征耗时,并且由于不同的训练数据的覆盖范围很低,泛化效果很差。
@TOC实验设置
@TOC数据集:semEval-2010:9个关系,两个方向,无向的其他类
@TOC划分数据集:10717个样本,8000个train,2717个测试,随机选择800个句子进行验证。
@TOC评价指标**:F1:84%**
模型**:attention,bilstm**
(捕捉句子中最重要的语义信息,自动聚焦于对分类有决定性影响的词,该模型不使用任何来自词汇资源或nlp系统的特征。)

  1. 输入层
    句子s={t1,t2,…,tN}
  2. 嵌入层
    将每个单词映射成一个低维向量,每个单词xi转换为ei,ei=Wwrdvi
    vi是独热编码,VV,词汇表大小乘词汇表大小,Wwrd是一个嵌入矩阵,deV,嵌入维度乘词汇表大小
    50维词向量和100维词向量用于进行比较和其他工作
  3. bilstm层
    获得高级特征,hi=【hi→+hi ←】,H =[h1,h2,h3,…hT]
    通过element-wise sum来连接前向和反向的输出。
  4. attention层
    生成权值向量,将每个时间步的词级特征相乘,合并成句子级特征向量。
    M = tanh(H)
    α = softmax(wTM)
    r=HαT
    最终句子表示:h
    =tanh®
    *
  5. 输出层
    使用句子级特征向量进行关系分类
    增加一个非线性层,做了一个softmax输出
    在这里插入图片描述
    损失函数:负对数似然函数
    实验trick:
    dropout在嵌入层0.3,bilstm层0.3和倒数第二层0.5
    l2范数
    模型超参数在验证数据集上调整。
    adaDelta优化器
    学习率:1.0
    批次大小:10
    模型参数正则化:10-5
    l2正则化:10-5

    相比较的工作:
    在这里插入图片描述
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值