总体思路
分析的时候是以对自己的教育计划作为结果(作为分类的标签),其他所有项作为输入项。结果分为5个标签:(看了一下输出是没有其他数值的故5个)
分析的目标
分别用六个机器学习方法对数据进行处理,希望得出准确度较高的预测模型与最佳分类器。输出的结果以准确度和ROC曲线进行表示。其实ROC曲线的面积和准确度是一个意思。ROC曲线使用曲线下面积(AUC)的大小对模型进行评价,AUC的取值范围为0.5到1之间,曲线下面积越大,越接近于1,模型的诊断或预测效果越好:AUC在 0.5~0.7时,准确性较低;在0.7~0.9时,有一定准确性;AUC在0.9以上时,准确性较高。AUC=0.5时,说明诊断方法完全不起作用,无诊断价值。所以可以看出得出的结果并不理想。
至于为什么ROC曲线是折线而不是常见的较为圆润的曲线。猜测理由如下:(1)模型中所包含的连续变量指标数量较少,绝大部分指标为类别较少的分类变量;即为离散值而不是连续的一些数值。
(2)绘制ROC曲线所使用的样本量较少。因此在建模时要注意,模型内纳入的各指标需要将分类变量与连续变量结合起来,并注意样本量不能太小。