Attention-Based Bidirectional Long Short-Term Memory for Relation Classification

最新推荐文章于 2021-12-28 10:43:12 发布

快乐崽

最新推荐文章于 2021-12-28 10:43:12 发布

阅读量231

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/qq_44949297/article/details/112704494

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文题目：《Attention-Based Bidirectional Long Short-Term Memory for Relation Classification》
@TOC应用领域：NLP的关系分类
（关系分类任务是寻找名词对之间的语义关系。是一项语义处理任务，对许多下游任务如信息抽取，问题回答等非常有用。）
（例如:该句包含了名词flowers和chaple的实体-目的地关系之间的例子。flowers are carried into the chaple ）
（挑战：重要的信息可以出现在句子中的任意位置。）
@TOC以前的方法：目前SOAT系统依赖于词汇资源wordnet或者像依存解析树和命名实体识别等NLP系统来获得更高的特征。模式匹配的方法。深度学习中使用CNN进行关系分类，但CNN不适合学习远距离语义信息。RNN有梯度消失问题。
缺点：计算成本增加和额外的传播误差；手工设计特征耗时，并且由于不同的训练数据的覆盖范围很低，泛化效果很差。
@TOC实验设置
@TOC数据集：semEval-2010：9个关系，两个方向，无向的其他类
@TOC划分数据集：10717个样本，8000个train，2717个测试，随机选择800个句子进行验证。
@TOC评价指标**：F1：84%**
模型**：attention，bilstm**
（捕捉句子中最重要的语义信息，自动聚焦于对分类有决定性影响的词，该模型不使用任何来自词汇资源或nlp系统的特征。）

输入层
句子s={t1,t2,…,tN}
嵌入层
将每个单词映射成一个低维向量，每个单词xi转换为ei，ei=Wwrdvi
vi是独热编码，VV，词汇表大小乘词汇表大小，Wwrd是一个嵌入矩阵，deV，嵌入维度乘词汇表大小
50维词向量和100维词向量用于进行比较和其他工作
bilstm层
获得高级特征，hi=【hi→+hi ←】，H =[h1,h2,h3,…hT]
通过element-wise sum来连接前向和反向的输出。
attention层
生成权值向量，将每个时间步的词级特征相乘，合并成句子级特征向量。
M = tanh(H)
α = softmax（wTM）
r=HαT
最终句子表示：h=tanh®*
输出层
使用句子级特征向量进行关系分类
增加一个非线性层，做了一个softmax输出

损失函数：负对数似然函数
实验trick：
dropout在嵌入层0.3，bilstm层0.3和倒数第二层0.5
l2范数
模型超参数在验证数据集上调整。
adaDelta优化器
学习率：1.0
批次大小：10
模型参数正则化：10-5
l2正则化：10-5
相比较的工作：

快乐崽

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Attention-Based Bidirectional Long Short-Term Memory for Relation Classification

论文题目：《Attention-Based Bidirectional Long Short-Term Memory for Relation Classification》@TOC应用领域：NLP的关系分类（关系分类任务是寻找名词对之间的语义关系。是一项语义处理任务，对许多下游任务如信息抽取，问题回答等非常有用。）（例如:该句包含了名词flowers和chaple的实体-目的地关系之间的例子。flowers are carried into the chaple ）（挑战：重要的信息可以出现在句
复制链接

扫一扫

专栏目录