衡量模型质量
通过训练得到模型后,我们就可以用这个模型,来进行预测了(也就是把数据输入到模型中让模型吐出一个结果)。
预测肯定能出结果,至于这个预测结果是否是你想要的,就不一定了。
一般来说,没有任何模型能百分百保证尽如人意,但我们总是追求尽量好。
什么样的模型算好呢?当然需要测试。
当我们训练出了一个模型以后,为了确定它的质量,我们可以用一些知道预期预测结果的数据来对其进行预测,把实际的预测结果和实际结果进行对比,以此来评判模型的优劣。
由此,我们需要一些评价指标来衡量实际预测结果和预期结果的相似程度。
分类模型评判指标: Precision、Recall 和 F1Score
对于分类而言,最简单也是最常见的验证指标:精准率(Precision)和召回率(Recall),为了综合这两个指标并得出量化结果,又发明了 F1Score。
对一个分类模型而言,给它一个输入,它就会输出一个标签,这个标签就是它预测的当前输入的类别。
假设数据 data1 被模型预测的类别是 Class_A。那么,对于 data1 就有两种可能性:data1 本来就是 Class_A(预测正确),data1 本来不是 Class_A(预测错误)。
当一个测试集全部被预测完之后,相对于 Class_A,会有一些实际是 Class_A 的数据被预测为其他类ÿ