一、学习知识点概要
task 1部分对本次比赛进行了大致介绍,重点解释了数据的含义及数据指标,为之后的比赛打好基础。
二、学习内容
本次比赛采用分类算法,其主要评估指标为混淆矩阵、精确率、准确率、召回率、F1 score、P-R曲线、ROC、AUC等
1、混淆矩阵
2、精确率
指预测为正的样本中正确预测的样本所占比例
3、准确率
指所有样本中正确预测的样本所占比例
4、召回率
指正样本中正确预测的样本比例
5、F1 score
F1 score/2 = 1/精确率 + 1/召回率
6、P-R曲线
P-R曲线是描述精确率和召回率变化的曲线,由F1 score的公式可看出精确率和召回率是“此消彼长”的关系,故而我们很难同时使这两个指标都表现良好,若要另一个指标高,则另一个指标会相应降低。如图。
7、ROC
是反映敏感性和特异性连续变量的综合指标,揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。如图。
8、AUC
是ROC曲线与x轴围成的面积。一般ROC曲线高于y=x曲线,显然AUC的值处于(0.5,1)的区间内。当AUC的值越接近于1,检测方法的真实性越高;反之检测方法的真实性越低,检测方法越不可靠。
三、学习问题与解答
在对理论的理解上暂时没有出现障碍,但是在实操即敲代码时发现有许多模块无法安装。该问题暂时还未得到解决,之后会向专业老师请教。
四、学习思考与总结
在学习这些指标的过程中,我发现每个指标都不是完美的,不能解决所有情况,所以要从不同的方面对数据进行深度挖掘,在不断寻找更好的分析方法。