-系统检索到的相关文档(A)
- 系统检索到的不相关文档(B)
- 相关但是系统没有检索到的文档(C)
- 相关但是系统没检索到的文档(D)
召回率R:用检索到相关文档数作为分子,所有相关文档总数作为分母,即 R=A/(A+C)
精度P: 用检索到相关文档数作为分子,所有检索到的文档总数作为分母.即 P=A/(A+B).
下面举例说明召回率和精度之间的关系:
一个数据库有500个文档, 其中有50个文档符合定义的问题.系统检索到75个文档,但是只有45个符合定义的问题.
召回率 R=45/50=90%
精度 P=45/75=60%
本例中, 系统检索是比较有效的,召回率为90%. 但是结果有很大的噪音, 有近一半的检索结果是不相关. 研究表明: 在不牺牲精度的情况下,获得一个高召回率是很困难的.召回率越高,精度下降的很快,而且这种趋势不是线性的.