论文题目:《Attention-Based Bidirectional Long Short-Term Memory for Relation Classification》
@TOC应用领域:NLP的关系分类
(关系分类任务是寻找名词对之间的语义关系。是一项语义处理任务,对许多下游任务如信息抽取,问题回答等非常有用。)
(例如:该句包含了名词flowers和chaple的实体-目的地关系之间的例子。flowers are carried into the chaple )
(挑战:重要的信息可以出现在句子中的任意位置。)
@TOC以前的方法:目前SOAT系统依赖于词汇资源wordnet或者像依存解析树和命名实体识别等NLP系统来获得更高的特征。模式匹配的方法。深度学习中使用CNN进行关系分类,但CNN不适合学习远距离语义信息。RNN有梯度消失问题。
缺点:计算成本增加和额外的传播误差;手工设计特征耗时,并且由于不同的训练数据的覆盖范围很低,泛化效果很差。
@TOC实验设置
@TOC数据集:semEval-2010:9个关系,两个方向,无向的其他类
@TOC划分数据集:10717个样本,8000个train,2717个测试,随机选择800个句子进行验证。
@TOC评价指标**:F1:84%**
模型**:attention,bilstm**
(捕捉句子中最重要的语义信息,自动聚焦于对分类有决定性影响的词,该模型不使用任何来自词汇资源或nlp系统的特征。)
- 输入层
句子s={t1,t2,…,tN} - 嵌入层
将每个单词映射成一个低维向量,每个单词xi转换为ei,ei=Wwrdvi
vi是独热编码,VV,词汇表大小乘词汇表大小,Wwrd是一个嵌入矩阵,deV,嵌入维度乘词汇表大小
50维词向量和100维词向量用于进行比较和其他工作 - bilstm层
获得高级特征,hi=【hi→+hi ←】,H =[h1,h2,h3,…hT]
通过element-wise sum来连接前向和反向的输出。 - attention层
生成权值向量,将每个时间步的词级特征相乘,合并成句子级特征向量。
M = tanh(H)
α = softmax(wTM)
r=HαT
最终句子表示:h=tanh®* - 输出层
使用句子级特征向量进行关系分类
增加一个非线性层,做了一个softmax输出
损失函数:负对数似然函数
实验trick:
dropout在嵌入层0.3,bilstm层0.3和倒数第二层0.5
l2范数
模型超参数在验证数据集上调整。
adaDelta优化器
学习率:1.0
批次大小:10
模型参数正则化:10-5
l2正则化:10-5
相比较的工作: