以一个二分类系统来讲,通常情况下我们会将数据分为两类:正确(T),错误(F)
,但是在我们实际操作的运行模型的结果中会出现四种不同的分类结果
P(positive)N(Nagitive)
(声明:这里所用的符号标记与所引用的链接有所不同)
TP:本身是正类,结果划分是正类
TN:本身是正类,结果划分为负类
FP:本身是负类,结果划分为正类
FN: 本身是负类,结果划分为负类
1.准确率:所有正确的分类的比重
Accuracy=(TP+FN)/(TP+TN+FN+FP)
2. 查准率: 正类且被预测也是正类的比率 占 所有预测为正类的占比
Precision = TP/(TP+FP)
3. 召回率Recall: 预测的正确的正类 占 实际为正类的占比
Recall = TP / (TP+TN)
*******
一般来说精准率和召回率是负相关的
解析:TP和TN是相互影响的,TP是正类预测也是这个类,如果这个TP的值越大,TN的值肯定是下降的。根据查准率和召回率的公式,TP越大,查准率越高,但是召回率就不一定了。
我们用F-score 来描述两者的关系:
论文用到的P-R曲线就是两者之间的关系曲线
- β如果取1,表示Precision与Recall一样重要
- β如果取小于1,表示Precision比Recall重要
- β如果取大于1,表示Recall比Precision重要