数据挖掘中正确率、召回率和F值、查全率和查准率

最新推荐文章于 2023-09-25 12:00:57 发布

CAPTIAN船长

最新推荐文章于 2023-09-25 12:00:57 发布

阅读量6k

点赞数 3

分类专栏：机器学习/模式识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/makenothing/article/details/48391443

版权

机器学习/模式识别专栏收录该内容

19 篇文章 2 订阅

订阅专栏

正确率、召回率和F值是在鱼龙混杂的环境中，选出目标的重要评价指标。

不妨看看这些指标的定义先：

正确率 = 正确识别的个体总数 / 识别出的个体总数

召回率 = 正确识别的个体总数 / 测试集中存在的个体总数

F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

不妨举这样一个例子：某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。Seaeagle撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

正确率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

不妨看看如果Seaeagle把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：

正确率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见，正确率是评估捕获的成果中目标成果所占得比例；召回率，顾名思义，就是从关注领域中，召回目标类别的比例；而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

查全率和查准率

一、查全率和查准率是目前衡量检索效果的相对合理的指标
　　查全率＝（检索出的相关信息量/系统中的相关信息总量）*100%
　　查准率＝（检索出的相关信息量/检索出的信息总量）*100%
　　前者是衡量检索系统和检索者检出相关信息的能力，后者是衡量检索系统和检索者拒绝非相关信息的能力。两者合起来，即表示检索效率。

二、查全率和查准率都有局限性
　　查全率的局限性主要表现在：它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比，但系统中相关信息量究竟有多少一般是不确知的，只能估计；另外，查全率或多或少具有“假设”的局限性，这种“假设”是指检索出的相关信息对用户具有同等价值，但实际并非如此，对于用户来说，信息的相关程度在某种意义上比它的数量重要得多。
　　查准率的局限性主要表现在：如果检索结果是题录式而非全文式，由于题录的内容简单，用户很难判断检索到的信息是否与课题密切相关，必须找到该题录的全文，才能正确判断出该信息是否符合检索课题的需要；同时，查准率中所讲的相关信息也具有“假设”的局限性。
实验证明，在查全率和查准率之间存在着相反的相互依赖关系--如果提高输出的查全率，就会降低其查准率，反之亦然。
对用户来说，影响检索效果的主要因素有文献标引的广泛性和用户检索标识的专指性。

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘中正确率、召回率和F值、查全率和查准率

正确率、召回率和F值是在鱼龙混杂的环境中，选出目标的重要评价指标。不妨看看这些指标的定义先：正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子：某池塘有1400条鲤鱼，300只虾，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。