召回模型
向量提前计算好,所以速度快,但是没有向量之间的交互,精度低
无监督训练SimCSE:一行一行的样本
本质上是把两个相同的样本,单独输入模型两次,然后借助drop out的思想,构造分类模型,两次的结果相近,同一个bacth里面对角线的为1,其余为0,构造分类模型。
每个类别也是刚好相对应的,每个bacth刚好也是,对角线的位置,第一行第一个改了最大索引label是0,第二行第二个最大,所以label是1
有监督训练:两列,第一列是query,第二列是正例样本,通过batch里面其他的作为负样本
和上面的思想,一致,只不过输入的两次是相近的句子,不是相同的句子
排序模型
向量当场交互计算的,所以精度高,因为向量没有提前计算好所以速度低
三列,第一列是query,第二例是正样本,第三列是强负例样本
也是分两次喂入模型,第一次是query+pos的组合,第二次是query+neg的组合,然后综合计算两次的损失,第一次的损失尽可能小,第二次的损失尽可能大。
评价指标
模型效果指标
-
在语义索引召回阶段使用的指标是 Recall@K,表示的是预测的前topK(从最后的按得分排序的召回列表中返回前K个结果)结果和语料库中真实的前 K 个相关结果的重叠率,衡量的是检索系统的查全率。跟顺序无关,只要存在重合即可。
-
在排序阶段使用的指标为AUC,AUC反映的是分类器对样本的排序能力,如果完全随机得对样本分类,那么AUC应该接近0.5。分类器越可能把真正的正样本排在前面,AUC越大,分类性能越好。跟顺序有关,真实越相关的应该越在前面
目录
应用
发展
字面匹配,term就是词或者字
痛点
痛点2
痛点三方案
召回是初筛,精度低速度快,无监督训练simCSE,和inbatch训练两个输入,quiry+title,通过一个batch里面的正样本和其他的负样本,装换成分类模型,这个是提前计算好向量然后计算相似度,没有充分交互
排序是精筛,速度慢精度高,有监督,query+正样本title+强负样本,正样本靠近,负样本远离,这里面输入和索引样本间进行了充分的向量交互,索引精度高
特色
特色
特色高性能
召回技术
召回
召回监督负采样
召回垂直领域预训练模型
排序模型
视频应用
搜索引擎
文献搜索
方案对比,数据处理占很大部分
召回模型可以直接用,后面接排序模型可以直接提高精度,千分之五就算比较大提升了
案例
两个模型,召回和排序是分别训练的,然后都是累计一定的数据在训练,用户的输入是query,用户点击的是正样本,弹出后没有点击的是强负样本,通过数据积累不断的做优化训练。