AI快车道-语义检索系统的快速搭建落地

召回模型

向量提前计算好,所以速度快,但是没有向量之间的交互,精度低
无监督训练SimCSE:一行一行的样本
本质上是把两个相同的样本,单独输入模型两次,然后借助drop out的思想,构造分类模型,两次的结果相近,同一个bacth里面对角线的为1,其余为0,构造分类模型。
在这里插入图片描述
在这里插入图片描述
每个类别也是刚好相对应的,每个bacth刚好也是,对角线的位置,第一行第一个改了最大索引label是0,第二行第二个最大,所以label是1

有监督训练:两列,第一列是query,第二列是正例样本,通过batch里面其他的作为负样本
和上面的思想,一致,只不过输入的两次是相近的句子,不是相同的句子
在这里插入图片描述
在这里插入图片描述

排序模型

向量当场交互计算的,所以精度高,因为向量没有提前计算好所以速度低
三列,第一列是query,第二例是正样本,第三列是强负例样本
在这里插入图片描述
在这里插入图片描述
也是分两次喂入模型,第一次是query+pos的组合,第二次是query+neg的组合,然后综合计算两次的损失,第一次的损失尽可能小,第二次的损失尽可能大。

评价指标

模型效果指标

  • 在语义索引召回阶段使用的指标是 Recall@K,表示的是预测的前topK(从最后的按得分排序的召回列表中返回前K个结果)结果和语料库中真实的前 K 个相关结果的重叠率,衡量的是检索系统的查全率。跟顺序无关,只要存在重合即可。

  • 在排序阶段使用的指标为AUC,AUC反映的是分类器对样本的排序能力,如果完全随机得对样本分类,那么AUC应该接近0.5。分类器越可能把真正的正样本排在前面,AUC越大,分类性能越好。跟顺序有关,真实越相关的应该越在前面

在这里插入图片描述

目录
在这里插入图片描述
应用
在这里插入图片描述
发展
在这里插入图片描述
字面匹配,term就是词或者字
在这里插入图片描述
痛点
在这里插入图片描述
痛点2
在这里插入图片描述
痛点三方案
在这里插入图片描述
召回是初筛,精度低速度快,无监督训练simCSE,和inbatch训练两个输入,quiry+title,通过一个batch里面的正样本和其他的负样本,装换成分类模型,这个是提前计算好向量然后计算相似度,没有充分交互
排序是精筛,速度慢精度高,有监督,query+正样本title+强负样本,正样本靠近,负样本远离,这里面输入和索引样本间进行了充分的向量交互,索引精度高
在这里插入图片描述
特色
在这里插入图片描述
特色
在这里插入图片描述
特色高性能
在这里插入图片描述
召回技术
在这里插入图片描述
召回
在这里插入图片描述
召回监督负采样
在这里插入图片描述
召回垂直领域预训练模型
在这里插入图片描述
排序模型
在这里插入图片描述
视频应用
在这里插入图片描述
搜索引擎
在这里插入图片描述
文献搜索
在这里插入图片描述
方案对比,数据处理占很大部分
在这里插入图片描述

召回模型可以直接用,后面接排序模型可以直接提高精度,千分之五就算比较大提升了
在这里插入图片描述
案例
在这里插入图片描述
两个模型,召回和排序是分别训练的,然后都是累计一定的数据在训练,用户的输入是query,用户点击的是正样本,弹出后没有点击的是强负样本,通过数据积累不断的做优化训练。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值