AI快车道-语义检索系统的快速搭建落地

愚昧之山绝望之谷开悟之坡

已于 2022-04-10 16:57:18 修改

阅读量571

点赞数 1

分类专栏： AI-快车道NLP 文章标签：人工智能

于 2021-12-30 11:21:37 首次发布

本文链接：https://blog.csdn.net/qq_15821487/article/details/122231651

版权

AI-快车道NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

召回模型

向量提前计算好，所以速度快，但是没有向量之间的交互，精度低
无监督训练SimCSE：一行一行的样本
本质上是把两个相同的样本，单独输入模型两次，然后借助drop out的思想，构造分类模型，两次的结果相近，同一个bacth里面对角线的为1，其余为0，构造分类模型。
在这里插入图片描述

每个类别也是刚好相对应的，每个bacth刚好也是，对角线的位置，第一行第一个改了最大索引label是0，第二行第二个最大，所以label是1

有监督训练：两列，第一列是query,第二列是正例样本，通过batch里面其他的作为负样本
和上面的思想，一致，只不过输入的两次是相近的句子，不是相同的句子
在这里插入图片描述

排序模型

向量当场交互计算的，所以精度高，因为向量没有提前计算好所以速度低
三列，第一列是query,第二例是正样本，第三列是强负例样本
在这里插入图片描述

也是分两次喂入模型，第一次是query+pos的组合，第二次是query+neg的组合，然后综合计算两次的损失，第一次的损失尽可能小，第二次的损失尽可能大。

评价指标

模型效果指标

在语义索引召回阶段使用的指标是 Recall@K，表示的是预测的前topK（从最后的按得分排序的召回列表中返回前K个结果）结果和语料库中真实的前 K 个相关结果的重叠率，衡量的是检索系统的查全率。跟顺序无关，只要存在重合即可。
在排序阶段使用的指标为AUC，AUC反映的是分类器对样本的排序能力，如果完全随机得对样本分类，那么AUC应该接近0.5。分类器越可能把真正的正样本排在前面，AUC越大，分类性能越好。跟顺序有关，真实越相关的应该越在前面

在这里插入图片描述

目录
在这里插入图片描述
应用

发展

字面匹配，term就是词或者字

痛点

痛点2

痛点三方案

召回是初筛，精度低速度快，无监督训练simCSE,和inbatch训练两个输入，quiry+title，通过一个batch里面的正样本和其他的负样本，装换成分类模型，这个是提前计算好向量然后计算相似度，没有充分交互
排序是精筛，速度慢精度高，有监督，query+正样本title+强负样本，正样本靠近，负样本远离，这里面输入和索引样本间进行了充分的向量交互，索引精度高
在这里插入图片描述
特色

特色

特色高性能

召回技术

召回

召回监督负采样

召回垂直领域预训练模型

排序模型

视频应用

搜索引擎

文献搜索

方案对比，数据处理占很大部分

召回模型可以直接用，后面接排序模型可以直接提高精度，千分之五就算比较大提升了
在这里插入图片描述
案例

两个模型，召回和排序是分别训练的，然后都是累计一定的数据在训练，用户的输入是query,用户点击的是正样本，弹出后没有点击的是强负样本，通过数据积累不断的做优化训练。

愚昧之山绝望之谷开悟之坡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
AI快车道-语义检索系统的快速搭建落地

目录应用发展字面匹配，term就是词或者字痛点痛点2痛点三方案召回是初筛，精度低速度快，无监督训练simCSE,和inbatch训练两个输入，quiry+title，通过一个batch里面的正样本和其他的负样本，装换成分类模型，这个是提前计算好向量然后计算相似度，没有充分交互排序是精筛，速度慢精度高，有监督，query+正样本title+强负样本，正样本靠近，负样本远离，这里面输入和索引样本间进行了充分的向量交互，索引精度高特色特色特色高性能召回技术召回
复制链接

扫一扫

专栏目录