文本匹配_文本匹配方法系列––多语义匹配模型

本文介绍了三种文本匹配的多语义模型:LSTM利用双向LSTM捕捉语义;MV-DSSM通过不同维度特征组合提升匹配效果;ESIM则引入注意力机制增强LSTM的表示能力。这些模型强调多视角特征交互和参数化的相似度计算,在实际应用中需考虑训练时间和效果的平衡。
摘要由CSDN通过智能技术生成

41b00d529fcb415cd3b337ef165a931b.png

摘要

NLP领域诸多任务都可以看成是文本匹配任务,本文接着 单语义匹配模型(2)[1]继续介绍相关的多语义匹配模型。所谓多语义匹配模型,相比于单语义模型取用一个token的语义embedding,多语义模型是基于RNN取用文本所有表示的语义embedding序列进行交互计算。其核心特点是先交互计算后进行相似性分数计算,可增加参数进行相似度计算,提取多种特征如 MV-DSSM,或者增加attention操作 如ESIM改善模型结构及效果。本文基于实践经历做一个经验小结。

1 LSTM匹配模型[2]

Wan, S. , Lan, Y. , Guo, J. , Xu, J. , Pang, L. , & Cheng, X. . (2015) [1]在文中,采用双向LSTM处理两个句子(maxlength1,maxlength2),然后对两个LSTM隐藏层的输出进行归一化,并按照矩阵乘法交互计算得到相似性矩阵(shape=(maxlength1,maxlength2))。作者认为这是一个Multi-View(MV)的过程,能够考察每个单词在不同语境下的含义。同时用双向LSTM处理句子,相当于用变长的窗口逐步的解读句子,实现多颗粒度考察句子的效果。网络结构如图1所示。

ba2a2ea526f4201ed51e1f95280fa7bb.png
图1 LSTM多语意匹配网络

模型的损失函数仍然是令正例最大化,负例最小化。当然实际应用的情况,数百万的实际数据用该bi-LSTM方法训练会要大好几天,收敛速度非常慢,建议改为GRU模型,这样相对时间会缩短一半以上,且效果只是稍低一些,综合准确率一般也会超过70%。

1a55b654e491ed15b6a86831cb7bdc8e.png

文章有以下4个创新点

(1)Bi-LSTM模型能考虑到句子的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值