Model Evaluation

最新推荐文章于 2023-06-10 10:07:56 发布

@yuqing_wang

最新推荐文章于 2023-06-10 10:07:56 发布

阅读量196

点赞数

分类专栏：统计学习（李航）

本文链接：https://blog.csdn.net/weixin_43199124/article/details/111405207

版权

统计学习（李航）专栏收录该内容

12 篇文章 0 订阅

订阅专栏

confusion matrix

true class \fitted class	1	0	total
1	TP	FN	P
0	FP	TN	N

总体衡量

accuracy（精度）
$\frac{TP+TN}{P+N}$
error rate(误分率)
$\frac{FP+FN}{P+N}$

查准率（precision）
$\frac{TP}{TP+FP}$

查全率（recall）
$\frac{TP}{TP+FN}$
如果希望recall 高，把所有人都预测为坏蛋（会破1）

这里需要阈值度量，阈值越高，查准率越高，阈值越低，查全率越高。

F1度量
希望precision和recall的调和平均
$F1=\frac{2PR}{P+R}$
p和r越大，F1越大，查全率升高的时候，查准率会降低

$F_\beta$ 度量
$F_\beta=\frac{(1+\beta^2)PR}{R+\beta^2 p}=\frac{(1+\beta^2)}{\frac{1}{P}+\beta^2 \frac{1}{R}}$

$\beta>1$ ,recall比较重要，否则，precision 比较重要

ROC 曲线和 AUC

roc原理：
如果一个分类器，可以把正例的概率预测的比负例的概率高，那么这应该是一个好的分类器

roc曲线
横轴：FPR（假正例率）真正的负例里面的错分率
$FPR=\frac{FP}{TN+FP}=\frac{FP}{N}$

纵轴：TPR(真正例率)真正的正例里面分对的概率
$TPR=\frac{TP}{TP+FN}=\frac{TP}{P}$

comment

如果一个分类器的roc曲线可以将另外一个包裹，证明一致的由于后者
一般TPR高的时候，FPR也高，如果我们将阈值设为0，那么TPR=FDR=1
将阈值设为1，那么FPR=TPR=0

AUC： roc曲线包裹的面积
在有限样本下，ROC曲线可以这样绘制

将阈值设值成最大，将所有的子例预测为反例，此时 TPR=FPR=0
将所有样本预测值从低到高排序，将阈值依次设为预测值
设前一个点的标记为 $(x, y)$ ，如果为真正例，下一个点的坐标， $(x,y+\frac{1}{P})$ ,否则 $(x+\frac{1}{N},y)$

定义排序损失如下， $m^{+}=p$ , $m^{-}=N$ , $D^+$ 为正例的集合, $D^-$ 为负例的集合
$l_{rank}=\frac{1}{m^+m^-}\sum_{x\in D^+}\sum_{x\in D^-}(I(f(x^+)<f(x^-))+\frac{1}{2}I(f(x^+)=f(x^-)))$

$AUC=1-l_{rank}$

成本收益曲线

成本： $\frac{TP+FP}{P+N}$
收益：recall $\frac{TP}{P}$
成本为1的时候，收益也为1
在这里插入图片描述

多次度量

k次实验取平均值进行度量
也有可能通过假设检验比较两个分类器的优劣

类别不均衡

设置阈值，若 $\frac{p_i}{1-p_i}>\frac{m_+}{m_-}$ 则预测为正例，不再用1作为cutoff
过采样
smote算法，对正例进行插值产生新正例
欠采样
easyensemble，将反例划分为几个子集，分别学习，再用集成学习汇总结果

@yuqing_wang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Model Evaluation

confusion matrixtrue class \fitted class10total1TPFNP0FPTNN总体衡量accuracy（精度）TP+TNP+N\frac{TP+TN}{P+N}P+NTP+TNerror rate(误分率)FP+FNP+N\frac{FP+FN}{P+N}P+NFP+FN查准率（precision）TPTP+FP\frac{TP}{TP+FP}TP+FPTP查全率（recall）TPTP+FN
复制链接

扫一扫