摘要
NLP领域诸多任务都可以看成是文本匹配任务,本文接着 单语义匹配模型(2)[1]继续介绍相关的多语义匹配模型。所谓多语义匹配模型,相比于单语义模型取用一个token的语义embedding,多语义模型是基于RNN取用文本所有表示的语义embedding序列进行交互计算。其核心特点是先交互计算后进行相似性分数计算,可增加参数进行相似度计算,提取多种特征如 MV-DSSM,或者增加attention操作 如ESIM改善模型结构及效果。本文基于实践经历做一个经验小结。
1 LSTM匹配模型[2]
Wan, S. , Lan, Y. , Guo, J. , Xu, J. , Pang, L. , & Cheng, X. . (2015) [1]在文中,采用双向LSTM处理两个句子(maxlength1,maxlength2),然后对两个LSTM隐藏层的输出进行归一化,并按照矩阵乘法交互计算得到相似性矩阵(shape=(maxlength1,maxlength2))。作者认为这是一个Multi-View(MV)的过程,能够考察每个单词在不同语境下的含义。同时用双向LSTM处理句子,相当于用变长的窗口逐步的解读句子,实现多颗粒度考察句子的效果。网络结构如图1所示。
模型的损失函数仍然是令正例最大化,负例最小化。当然实际应用的情况,数百万的实际数据用该bi-LSTM方法训练会要大好几天,收敛速度非常慢,建议改为GRU模型,这样相对时间会缩短一半以上,且效果只是稍低一些,综合准确率一般也会超过70%。
文章有以下4个创新点:
(1)Bi-LSTM模型能考虑到句子的