毕业设计(查全率[召回率]与精度[查准率])----2

[web网页自动分类系统 java c++]

一直搞不清搜索引擎的查全率和查准率是什么意思,只知道这两个是衡量一个搜索引擎性能的. 今个 看一篇 南大的学士论文的时候, 又碰到这个问题. 所以决定把他搞清楚, 上百度搜了一下, 所获很多.  

查全率[召回率]与精度[查准率] 之辨析:

召回率(recall rate)和精度(precision)定义: <o:p></o:p>

从一个大规模数据集合中检索文档的时,可把文档分成四组   <o:p></o:p>

-系统检索到的相关文档(A)

- 系统检索到的不相关文档(B)

相关但是系统没有检索到的文档(C)

相关但是被系统检索到的文档(D)

<o:p> </o:p>

相关<o:p></o:p>

不相关<o:p></o:p>

检索到<o:p></o:p>

A<o:p></o:p>

B<o:p></o:p>

未检索到<o:p></o:p>

C<o:p></o:p>

D<o:p></o:p>

直观的说,一个好的检索系统检索到的相关文档越多越好,不相关文档越少越好.<o:p></o:p>

召回率和精度是衡量信息检索系统性能最重要的参数.<o:p></o:p>

召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)<o:p></o:p>

精度P 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即  P=A/(A+B). <o:p></o:p>

下面举例说明召回率和精度之间的关系:<o:p></o:p>

一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题. <o:p></o:p>

召回率      R=45/50=90%<o:p></o:p>

精度      P=45/75=60%<o:p></o:p>

本例中系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值