版权声明:本文为博主原创文章,未经博主允许不得转载。禁止抄袭。
由于作者资历尚浅,有理解错误的地方欢迎大家指正和交流。
论文简介
论文题目: Siamese Recurrent Architectures for Learning Sentence Similarity
论文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12195/12023
作者:Jonas Mueller,Aditya Thyagarajan
作者单位:Massachusetts Institute of Technology(MIT CSAIL)、M. S. Ramaiah Institute of Technology(印度 MSRIT)
出版单位:the Association for the Advance of Artificial Intelligence(AAAI)
发表时间:2016.2
模型图
贡献点:
1.提出新的度量方式(基于曼哈顿距离,见细节2)。优于欧几里得距离(梯度消失)、余弦相似度。【回归】
2.通过明确的指导(距离),使用简单LSTM能够建模复杂的语义。
3.使用MaLSTM features输入给SVM来进行分类。【分类】
实验数据:
1.The SICK data set (10k条): http://clic.cimec.unitn.it/composes/sick.html
- sentence_A: sentence A
- sentence_B: sentence B
- entailment_label: textual entailment gold label (NEUTRAL, ENTAILMENT, or CONTRADICTION)
- relatedness_score: semantic relatedness gold score (on a 1-5 continuous scale)
1.1 回归问题,得分在1-5
1.2 分类问题,三类【entailment, contradiction, or neutral】
细节:
1.LSTM(a)和LSTM(b)权重设置一样(tied weights、主题一样)。在信息检索(IR)等其他应用场景可设置不一样(untied weights)。
2.度量方式使用基于曼哈顿距离d的dis=e^(-d),由于得分在1-5,因此做了dis*4.0+1.0的处理。简单的度量方式,让句子表示更好地表达复杂的语义关系。
3.LOSS函数使用MSE。训练使用BPTT。
4.词向量预训练(实验数据只有10k条),利用同义词扩充来数据增强。
5.input维度(300维)、hidden维度(50维)