查准率和查全率_浅谈查全率(Recall)和查准率(Precision)及准确率(Accuracy)及TPR....

最近在学习ES的时候,偶然听到了两个词汇,分别是 查全率 和 查准率,对应的场景是在ES检索时的IK分词器力度上;

7e5120b589b959af1e6dfaef799d8c05.png

简单了解了一下,发现是一个比较有意思的概念,遂记录于此,加深印象;

为了方便理解,我们通过一个混淆矩阵来描述这种关系,其矩阵如下:

7fe70a8a6d49a4d7bb37c3eff8128e74.png

通过上述矩阵,我们可以通过一些维度,获取到我们想要的指标,比如

TPR:意为正样本中预测为正的样本比例,其公式为:

73f181577919107ada9e4af1fb3801ad.png

FNR:意为正样本中预测为负的样本比例,其公式为:

293709a9c6629c823eebd5d91f17cb03.png

FPR:意为负样本中预测为正的样本比例,其公式为:

6d21e6666cfcfa39d5177abf81e8205b.png

TNR:意为负样本中预测为负的样本比例,其公式为:

73f181577919107ada9e4af1fb3801ad.png

同样,通过混淆矩阵,我们还可以算出本次预测的准确率(Accuracy),及当前预测结果中,预测命中率,又称为精确度;精确度是分类正确的样本数占样本总数的比例

1abb82d9ae3ada95be31d2ce72063fa6.png

关于查全率和查准率,在ES检索中使用IK分词器时,IK分词器有两种不同的分词力度,分别是粗粒度(ik_smart)和细粒度(ik_max_word);这两种分词器刚好可以照应我们这里需要了解的 查全率 和 查准率;

使用粗粒度分词,会产生的结果就是,查询的数据比较准确,但是不齐全;使用细粒度分词器,会产生的结果就是,查询的数据比较全面,但是不是很准确;

我们看一下查全率和查准率的概念;

查全率:查询的样本中为正的占查询出的数据的总量,也可以理解为 真实为正样本中有多少是预测正确的;其公式如下:

a90666d6a9b71850b7f05d269f89909b.png

查准率:真实为正的样本中占预测为正的样本的比例:其公式如下图

0de4c1f4e32416ecd5084599b847b37d.png

查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。其模型如下图

055a9035684f510a28a4bf7c1a0231c9.png
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值