词语之间的语义相似度怎么算_文本匹配方法系列––多维度语义交互匹配模型...

最新推荐文章于 2023-03-20 16:29:06 发布

weixin_39777163

最新推荐文章于 2023-03-20 16:29:06 发布

阅读量479

点赞数

文章标签：词语之间的语义相似度怎么算

摘要

本文基于接着多语义匹配模型[1]和BERT匹配模型[2]介绍一些多维度语义交互匹配模型，包括2017 BiMPM模型[3]和腾讯出品的2018 MIX[4]。这些方法的核心特征都是在多语义网络的基础上，从多视角提出新增特征维度，新增多信道信息交叉，构造attention等方式，而后拼接特征或者通过卷积变换通道方式整合特征，一般效果都会超过之前介绍的ESIM模型[1]。本文结合实际使用情况进行小结介绍。

1 BiMPM模型[3]

BiMPM模型全称 Bilateral multi-perspective matching model, 为2017IJCAI论文。图1是模型网络框架图，其基本继承多语义模型多种方法的基本思想，采用Bi-LSTM来构建表示层。同时，采用了含参数的方式参与匹配：

其中算不得新奇的一种有效手法是：BiMPM 使用词级别和字符级别的词向量，使得文本语义表示更加充分【说明：这个还是比较常见的，实际应用还可以自行构建千万级的无标签数据先训练一个字符以及词语的word2vec模型，作为模型embedding的初始化，效果会更好】

下面详细介绍其匹配层的构造如图2，其余基本操作可参见本系列前述文章。这篇文章的特点在于充分利用了句子表示的语义：1、双边，对每一个step的输出进行从p到q和从q到p的两两配对计算；2、多角度，在考虑句子间的交互关系时采用了4种不同的方式。

图2 BIMPM模型匹配层构造

（1）Full-Matching.：如图2(a)所示是一个句子的表示即LSTM最后隐层输出跟另一句的每个单词输出作匹配，前向的LSTM是最后一个，后向的LSTM是第一个。

（2）Maxpooling-Matching：如图2(b)句子P与另一个句子Q每一个隐藏层的输出作匹配，取最大值(最大池化)。

（3）Attentive-Matching：如图2(c)利用句子P中单词的embedding和另一个句子Q的各个单词的embeddings分别计算余弦相似度，然后用softmax归一化做成attention权重，加权求和再进行带参余弦相似度计算。【就有点类似ESIM的思想】

（4）Max-Attentive-Matching：如图2(d)所示，与Attentive-Matching相似，先计算出attention的权重，取其中权重最大的而不是加权求和，做相似度匹配。

2 MIX模型[4]

腾讯出品必属精品，2018KDD SOTA论文MIX: Multi-Channel Information Crossing for Text Matching 是来自腾讯 MIG 移动浏览产品部和阿尔伯塔大学的研究者提出一种用于文本匹配的新模型 MIX，这是一个多信道信息交叉模型；腾讯使用有实际业务场景验证：在 QQ 浏览器搜索直达业务使用中也表现出了优秀的性能，相对提升点击率 5.7%，所以理论实践都倍儿棒。以下做一些介绍。

MIX 模型组合使用全局匹配和局部匹配技术，对两个文本片段之间的相关性进行建模，MIX 模型能够有层次、多维度地描绘文本匹配问题的本质，图3是其示意图。

图3 MIX

MIX模型特点如下：

（1）如图 3左上方Sentence B所发出的三个箭头所示，为了考虑到单个词语匹配过程中存在的不准确性，句子被解析成不同粒度的文本片段，如一元分词、二元分词和三元分词。用这种方式，MIX 通过找到文本片段最合适的语义表征（可以是单词、短语或词组）来改善局部匹配的准确率；

（2）充分利用attention机制，其权重矩阵设计非常优秀，研究者提取语法信息，如相对权重和词性标注，据此在注意力信道中设计注意力矩阵，以封装丰富的结构模式，而不是简单的随机矩阵。文中使用的用词的idf表示的词权重attention、Part-of-Speech(PoS)权重信息以及词语所在的位置权重均有其直接的意义。

（3）融合多通道，形成的4维矩阵而不是三维，使用3D卷积来融合多通道特征，其做法基本与图像领域操作一致，故而有人称之为矩阵匹配。

3 应用

BIMPM模型论文中给出的结果如图4所示，实际工业数据效果会在80%左右，一般比ESIM高一些。需要提示的是，其训练速度也是非常的慢，其attention所带来的时耗并不亚于ESIM模型，一般数百万数据训练需要一周以上，实际使用需要谨慎选择。

图4 BIMPM模型效果展示

而关于MIX模型其效果实际工业数据不会低于ESIM和bimpm模型，应用中的问题是句子被解析以及多种权重构造输入其实也是一个费劲的事情，实际应用可以根据需要减少其中一部分。

图5 MIX模型效果

4 结语

本文介绍的两篇多维度匹配文章，总的来说核心思想还是多维度多视角进行交互计算，充分利用交互相似性构建attention，充分利用多种NLP领域有意义的做法构建权重，通过拼接或者卷积变换通道的方式进行特征合并，无出其外。

同时回首整个系列做法，BI-LSTM模型特点被充分应用，越往后模型越复杂训练时间也会越长。但是这些模型并未结合预训练（如BERT或者早一些的GPT模型）,也并未应用transformer机制，所以可见这个方向仍然还有提升空间，本人认为这是未来的一个很好的继续研究方向。

参考文献

[1]多语义匹配模型：

debuluoyi：文本匹配方法系列––多语义匹配模型zhuanlan.zhihu.com

[2]BERT匹配模型：

debuluoyi：文本匹配方法系列––BERT匹配模型zhuanlan.zhihu.com

[3]BiMPM: Wang, Z., Hamza, W., & Florian, R. (2017). Bilateral multi-perspective matching for natural language sentences.arXiv preprint arXiv:1702.03814.

[4]腾讯MIX: Chen, H., Han, F. X., Niu, D., Liu, D., Lai, K., Wu, C., & Xu, Y. (2018, July). Mix: Multi-channel information crossing for text matching. InProceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining(pp. 110-119). ACM.

【文本匹配系列终于写完了！基本把本人实际做过的都总结了一遍。

下一个系列是 知识图谱系列】

weixin_39777163

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词语之间的语义相似度怎么算_文本匹配方法系列––多维度语义交互匹配模型...

摘要本文基于接着多语义匹配模型[1]和BERT匹配模型[2]介绍一些多维度语义交互匹配模型，包括2017 BiMPM模型[3]和腾讯出品的2018 MIX[4]。这些方法的核心特征都是在多语义网络的基础上，从多视角提出新增特征维度，新增多信道信息交叉，构造attention等方式，而后拼接特征或者通过卷积变换通道方式整合特征，一般效果都会超过之前介绍的ESIM模型[1]。本文结合实际使用情况进行小...
复制链接

扫一扫