算法验证评估
我们在做预测的时候都是把样本数据分成几个数据集,一个用来训练模型,另外一个或者两个用来验证模型,也就是验证这个最优权重是否可靠。
ROC曲线
算法好做,但是验证比较麻烦。我们准备好的一组样本数据并不是计算一次就ok了,我们需要反复计算,来得到ROC曲线,用验证数据集的所有数据计算一次就是ROC曲线上的一个点,如果我们想要一个有100个点组成的曲线,那么就要计算100次。
这里有一个关键点,就是每次计算都要修改一下判断条件。
啥判断?啥条件?
我们用验证数据和最优权重计算后得到了每组预测结果[y1, y2, y3 ...],那别忘了这些预测结果都是0和1之间的数,我们要把他们归类成0或者1,对吧,归类就需要一个判断条件吧,大于等于一个数归类成1,小于这个数归类成0。如果每次验证都用同一个数,那出来的100个点数据都一样,ROC就是个直线。这不是我们想要的,所以要每次训练都改变一个数,我们可以使用【0、0.01、0.02、0.03 ....... 0.98、0.99、 1】这101个数进行验证,这样每次验证的准确率就会有变化,我们就有参考啦。如下图就是一组经过51次验证的ROC曲线图
什么是TPR什么是FPR呢?