Task1-CSDN博客

目标：理解赛题目标，学习相应理论概念，熟悉应用预测指标，评分规则。
学习：

一.容易混淆

若一个实例为正类，被预测为负类，即为假负类。（False Negative）（FN）
若一个实例为负类，被预测为正类，即为假正类。（False Positive）（FP）

二.概念理解

精确率（Precision）：precision = TP/（TP + FP）
表述了分为正类的示例中实际为正类的比例。
召回率（Recall）：recall=TP/(TP+FN)
是覆盖面的度量，度量有多少个正类被分为正类。注：与此对等的概念还有灵敏度（Sensitivity）和真正例率（TPR）
综合评价指标F1 Score：precision和recall通常是此消彼长的，要想综合考虑他们，最常见的方法就是计算F1 Score，F1 Score是Precision和Recall的调和平均。
P-R曲线（Precision-Recall Curve）是描述precision和recall变化的曲线。

通过P-R曲线图可以看到

起点：precision=1，recall=0：
因为此时阈值（threshold）为1，所有样本都被预测为反例（因为所有样本预测为正例的概率值都<1），那么TP=0，FP=0，FN=正整数，则precision=TP(TP+FP)=0/(0+0)=1（在画PR曲线时默认0/0=1）,recall=TP/(TP+FN)=0/(0+正整数)=0
终点：0<precision<1，recall=1：
因为此时阈值（threshold）为0，所有样本都被预测为正例（因为所有样本预测为正例的概率值都>0），那么TP=正整数A，FP=正整数B，FN=0,则precision=TP(TP+FP)必然大于0小于1，recall=TP/(TP+FN)=正整数A/(正整数A+0)=1
精准率和召回率是相互牵制，互相矛盾的两个变量：
因为随着阈值（threshold）从1降到0，FP增大，FN减小，所以precision变小，recall变大

ROC（Receiver Operating Characteristic）与AUC（Area Under Curve）：
ROC曲线是以假正例率（FPR）X 轴，真正例率（TPR）为 Y 轴，在不断调整阈值（threshold）的过程中画出来的一条曲线，而AUC则是ROC曲线和X轴围成的面积，具体ROC曲线如何画，以及AUC的计算公式如何推导的，请参考南瓜书第2章2.20（传送门：https://datawhalechina.github.io/pumpkin-book/#/chapter2/chapter2?id=_220）

FPR=TP/(TP+FN),即正确识别的正例数据占据总的正例数据的比例，为召回率。在正类数据较少时很适用。
TPR=FP/(FP+TN),即实际值为负例数据，将负例数据预测为正例的百分比；
AUC(area under thecurve)，即ROC曲线和X轴围成的面积，AUC值越大分类器性能越好。
ROC曲线好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线变化很小而PR曲线则变动很大，举个例子：假如此时测试集中有20个正例，10000个负例，在前t-1次变动阈值的过程当中已经将20个正例预测为了正例，而在第t次变动阈值时，有20个负例被错误预测为了正例，那么此时：TP=20，FP=20，FN=10000-20=9980，TPR=20/(20+9980)=0.002，precision=20/(20+20)=0.5；接着，在第t+1次变动阈值的过程当中，又有20个负例被错误预测为了正例，那么此时：TP=20，FP=40，FN=10000-40=9960，TPR=40/(40+9960)=0.004，precision=20/(20+40)=0.333。显然，从第t次到t+1次，TPR只从0.002变动到了0.004，而precision却从0.5变动到了0.333，两者的变动幅度相差很大，那么分别反应到ROC曲线和PR曲线上的变动幅度相差也很大。在实际的数据集中经常会出现类不平衡（classimbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。而P-R曲线则会变化较大。但在极度不平衡的数据下（Positive的样本较少），PR曲线可能比ROC曲线更实用。