推荐系统-召回阶段-双塔模型-2013:SimNet【Embedding(语义向量)召回】【百度】

文本匹配是自然语言处理中一个重要的基础问题,自然语言处理中的许多任务都可以抽象为文本匹配任务。例如网页搜索可抽象为网页同用户搜索 Query 的一个相关性匹配问题,自动问答可抽象为候选答案与问题的满足度匹配问题,文本去重可以抽象为文本与文本的相似度匹配问题。

传统的文本匹配技术如信息检索中的向量空间模型 VSM、BM25 等算法,主要解决词汇层面的匹配问题,或者说词汇层面的相似度问题。而实际上,基于词汇重合度的匹配算法有很大的局限性,原因包括:

1)语言的多义同义问题

相同的词在不同语境下,可以表达不同的语义,例如「苹果」既表示水果,也表示一家科技公司。同理,相同的语义也可由不同的词表达,例如「的士」、「taxi」都表示出租车。

2)语言的组合结构问题

相同的词组成的短语或句子,不同的语序可表达不同的语义,例如「深度学习」和「学习深度」。更进一步,还存在句法结构问题,例如「从北京到上海高铁」和「从上海到北京高铁「虽然含有的词语完全相同,但其语义完全不同。而「北京队打败了广东队」和「广东队被北京队打败了」又语义完全相同。

3)匹配的非对称问题

文本匹配类的任务,并不单单是文本相似度问题。一方面不一定要求语言上的相似,例如网页搜索任务中 query 端的语言表述形式和网页端往往具有很大的差别,至少在长度上就差距很大。另一方面也不一定要求语义上的相同,例如问答任务中,待匹配的两段文本并不要求同义,而是看候选答案是否真正回答了问题。

这表明,对文本匹配任务,不能只停留在字面匹配层面,更需要语义层面的匹配,不仅是相似度匹配,还包括更广泛意义上的匹配。

针对前述问题,有各种改进工作。比如基于统计机器翻译方法,挖掘同义词或同义片段来解决 mismatch 问题;从语义紧密度、词语间隔等度量出发来规避结构转义问题;从对网页打关键词标签、点击关联计算等来一定程度解决非对称匹配问题等。这些方法,都有一定效果,但整体上造成策略逻辑非常复杂,还是没有完全解决具体任务下语义层面的匹配问题。

而语义层面的匹配,首先面临语义如何表示、如何计算问题。




百度语义匹配模型-simnet代码整理
百度NLP | 神经网络语义匹配技术

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值