干货!预训练语言模型在百度大规模召回阶段的应用

点击蓝字

3f3b79b61b98fd3c7335e14195a172af.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

召回是网页搜索中的重要阶段,其功能在于从海量网页库中找到一个相对较小的相关候选集。其中,基于语义相关的召回有助于展现更多高质量的搜索结果给用户。但是,搭建和部署一个高效的语义召回模型,在搜索引擎业务中一直面临着诸多挑战。本文介绍了目前百度搜索中所使用的基于预训练语言模型的召回系统。此系统采用了百度自研的中文预训练语言ERNIE,通过应用基于多层Transformer的模型结构,以及多阶段的训练流程,赋予了召回系统强大的语义匹配能力。同时,本文还介绍了基于预训练的召回模型在整个召回系统中的工作流程。通过严谨的离线和线上实验验证,基于预训练语言模型的召回系统已全量部署在百度搜索业务中,提升了百度搜索的整体效果。

本期AI TIME PhD直播间我们邀请到百度高级算法工程师——牛帅程,为我们带来报告分享《预训练语言模型在百度大规模召回阶段的应用》。

6f02ccdf9b6738dc3dd779d5fe3c76ce.png

刘亦丁:

百度高级算法工程师。2020年于新加坡南洋理工大学获得博上学位,导师为丛高教授(https://personal.ntu.cdu.sg/gocong/) 。在数据挖掘、数据库领城顶会KDD、SIGIR、 WWW, ICDE、VLDB、WSDM等发表10余篇论文。个人主页: https:/ /liuyiding.net/。

01

 背   景 

常见的搜索引擎的流程大致包括大规模网页检索和重排序两个阶段。传统的网页检索是基于文本匹配的方法,比如关键词匹配法,这种方法有个明显的缺陷就是容易引发歧义,比如下面的例子。

d7cba391d4277dd1c38e56449bbef827.png

如此我们就引出来基于语义的检索方法,主流的是以表示学习为主的方法,这种方法在进行语义检索时主要分为两部,第一步将海量网页汇聚成文档,表示为隐空间的向量。下图是一个二维隐空间的示意图,图上的每个点都可以看作一个网页。在检索时,我们可以将用户发出的检索需求“Query”也表示为隐空间的一个向量,采取最近邻的方式进行检索。

b5d6e797bd0b5f55f14da707d18ff1f9.png

那么语义检索面临的问题有那些呢?下面本文主要总结了三个方面比较大的挑战:

(1) 如何理解语义?

理解语义是最基础也是最核心的一步,模型对语义理解的越好,检测结果才能越准确。现在用户习惯用自然语言而非关键词来进行搜索,而自然语言的检索需求对模型理

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值