召回率和精度示意图
假定:从一个大规模数据集合中检索文档的时,可把文档分成四组:
- 系统检索到的相关文档(A)
系统检索到的不相关文档(B)
相关但是系统没有检索到的文档(C)
不相关且没有被系统检索到的文档(D)
则:
召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即R = A / ( A + C )
精度P:用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即P = A / ( A + B ).
举例来说:
一个数据库有500个文档,其中有50个文档符合定义的问题。系统检索到75个文档,但是只有45个符合定义的问题。
召回率R=45/50=90%
精度P=45/75=60%
本例中,系统检索是比较有效的,召回率为90%。但是结果有很大的噪音,有近一半的检索结果是不相关。研究表明:在不牺牲精度的情况下,获得一个高召回率是很困难的