深入理解搜索引擎——基于语义检索LSTM-DSSM召回模型

本文介绍了基于语义检索的召回模型LSTM-DSSM,作为对传统BM25算法的补充。DSSM模型通过深度网络将query和doc映射到语义空间,LSTM-DSSM则引入LSTM解决文本顺序和上下文信息丢失问题,提升召回效果。此外,还探讨了Bert预训练模型在生成词向量中的作用,以及如何结合品牌和类目信息优化模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

​众所周知,BM25算法是Elasticsearch全文检索引擎默认相似度算法,但此种算法仅考虑了文本Term之间的匹配关系,并未考虑文本语义之间的信息,所以导致很多场景下,语义相关的内容无法召回。随着深度学习在NLP的广泛应用,在IR和QA(问答系统)中出现了很多深度模型将query和doc通过神经网络embedding,映射到一个稠密空间的向量表示,然后再计算其是否相关,并取得很好的效果,而本文就来介绍一种基于语义检索的召回模型LSTM-DSSM

【DSSM】

DSSM是Deep Structured Semantic Model的缩写,基于深度网络的语义模型,由微软研究院在2013年发表,其其核心思想是基于搜索引擎的曝光点击行为数据,利用多层DNN网络把query及文档Doc Embeding成同一纬度的语义空间中,通过最大化约束query和doc两个语义向量的余弦举例,从而训练学习得到隐层相似度语义模型,从而实现了检索召回。

下图是DSSM模型的网络结构图

DSSM 从下往上可以分为三层结构:输入层、表示层、匹配层。

输入层:将所有query以及候选集doc映射到统一空间并作为输入,放进DNN中进行训练,但在DSSM中,中英文的处理方式有所不同。英文一般直接使用word hashing,3个字母为一组ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值