基于百度paddle检索系统的召回

 所谓召回,无非就是用一段不规则文本模拟用户query查询,而要召回的是标准的title+key,这些是要构建索引库的,所有相似文本对的第二个文本必须要在索引库里存在,不然就没法评估,因为标记都是0,还有召回1,召回5等,并不是什么狗屁的查全率,说的子虚乌有的,更精确的是像图像分类中的top1,top5这样的,就是精确率,召回5就是5次召回有一次召回到,就设置标记为1,这其实就是top5精确率,依次类推,其他事top10,top20。要相更好的搜索系统,还可以排序。我上面的相当于从25万个文本中召回,召回1精度达到了92%,说明这个模型相当不错,还有别总用什么准确率指标保存模型,损失低,准确率一定高。但是准确率高,损失未必低,知道这意味 着啥吗?损失高,模型准确率也高意味着泛化能力差。

 

我没傻着插入1000万条数据,我觉得那没有意义,插入的资料再精不在多,何况只是在演示

上面是检索系统召回模型召回的结果

 上面是排序模型排序的结果

 上面是整个检索系统的目录结构

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值