推荐系统-召回阶段-双塔模型-2013：SimNet【Embedding（语义向量）召回】【百度】

u013250861

已于 2023-02-06 21:26:45 修改

阅读量561

点赞数

分类专栏： # RS/召回层文章标签：自然语言处理语义匹配 SimNet

于 2022-03-03 01:07:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/123244304

版权

RS/召回层专栏收录该内容

30 篇文章 3 订阅

订阅专栏

文本匹配是自然语言处理中一个重要的基础问题，自然语言处理中的许多任务都可以抽象为文本匹配任务。例如网页搜索可抽象为网页同用户搜索 Query 的一个相关性匹配问题，自动问答可抽象为候选答案与问题的满足度匹配问题，文本去重可以抽象为文本与文本的相似度匹配问题。

传统的文本匹配技术如信息检索中的向量空间模型 VSM、BM25 等算法，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。而实际上，基于词汇重合度的匹配算法有很大的局限性，原因包括：

1）语言的多义同义问题

相同的词在不同语境下，可以表达不同的语义，例如「苹果」既表示水果，也表示一家科技公司。同理，相同的语义也可由不同的词表达，例如「的士」、「taxi」都表示出租车。

2）语言的组合结构问题

相同的词组成的短语或句子，不同的语序可表达不同的语义，例如「深度学习」和「学习深度」。更进一步，还存在句法结构问题，例如「从北京到上海高铁」和「从上海到北京高铁「虽然含有的词语完全相同，但其语义完全不同。而「北京队打败了广东队」和「广东队被北京队打败了」又语义完全相同。

3）匹配的非对称问题

文本匹配类的任务，并不单单是文本相似度问题。一方面不一定要求语言上的相似，例如网页搜索任务中 query 端的语言表述形式和网页端往往具有很大的差别，至少在长度上就差距很大。另一方面也不一定要求语义上的相同，例如问答任务中，待匹配的两段文本并不要求同义，而是看候选答案是否真正回答了问题。

这表明，对文本匹配任务，不能只停留在字面匹配层面，更需要语义层面的匹配，不仅是相似度匹配，还包括更广泛意义上的匹配。

针对前述问题，有各种改进工作。比如基于统计机器翻译方法，挖掘同义词或同义片段来解决 mismatch 问题；从语义紧密度、词语间隔等度量出发来规避结构转义问题；从对网页打关键词标签、点击关联计算等来一定程度解决非对称匹配问题等。这些方法，都有一定效果，但整体上造成策略逻辑非常复杂，还是没有完全解决具体任务下语义层面的匹配问题。

而语义层面的匹配，首先面临语义如何表示、如何计算问题。

百度语义匹配模型-simnet代码整理
 百度NLP | 神经网络语义匹配技术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐系统-召回阶段-双塔模型-2013：SimNet【Embedding（语义向量）召回】【百度】

相同的词组成的短语或句子，不同的语序可表达不同的语义，例如「深度学习」和「学习深度」。例如网页搜索可抽象为网页同用户搜索Query的一个相关性匹配问题，自动问答可抽象为候选答案与问题的满足度匹配问题，文本去重可以抽象为文本与文本的相似度匹配问题。传统的文本匹配技术如信息检索中的向量空间模型VSM、BM25等算法，主要解决词汇层面的匹配问题，或者说词汇层面的相似度问题。这表明，对文本匹配任务，不能只停留在字面匹配层面，更需要语义层面的匹配，不仅是相似度匹配，还包括更广泛意义上的匹配。......
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。