查准率与查全率
在机器学习领域,有两个常用的指标:查准率与查全率。
它们分别代表什么含义呢?让我们以一个例子来说明。
假设有400人申请贷款,已知其中有160人是好人。我们建立一个模型进行训练,训练的结果是把100个人识别成了好人。但是,实际上,这些人中间只有80人是真正的好人,另外20人是漏网之鱼。
其中,查准率(precision)=检出相关信息量/检出信息总量=80/100=80%
查全率(recall)=检出相关信息量/系统中的相关信息总量=80/160=50%
由此看来,查准率与查全率是一对相互矛盾的概念。
通常,要提高查准率,就要把标准定得严格一些,那么,就会有更多的人被识别为“坏人”,只有少数特别好的人才会被认为是“好人”。
这样,检出的好人数量一定会减少,那么在全部好人中的占比就会下降,也就直接导致查全率降低。
如果反过来,把标准定得低一些,虽然有更多的好人被识别为“好人”,查全率显著升高,可是也会有更多的坏人被误判为“好人”,导致查准率下降。
通过率和坏账率
在金融风控领域,有两个指标是与查准率和查全率相对的,即通过率和坏账率。它们表达的意思一致,但是具体含义不同。
坏账率指的是在被判断为好人的人群中,坏人所占的比例。即:
坏账率=年坏账率/年赊销总额=20/100=20%
因此,查准率=1 - 坏账率<