数据拆分:将原始数据中的一部分作为训练数据、另一部分作为测试数据。使用训练数据训练模型,再用测试数据看好坏。即通过测试数据判断模型好坏,然后再不断对模型进行修改。
accuracy_score:函数计算分类准确率,返回被正确分类的样本比例(default)或者是数量(normalize=False)
在多标签分类问题中,该函数返回子集的准确率,对于一个给定的多标签样本,如果预测得到的标签集合与该样本真正的标签集合严格吻合,则subset accuracy =1.0否则是0.0
超参数,就是在机器学习算法模型执行之前需要指定的参数。(调参调的就是超参数) 如kNN算法中的k。
为了验证模型的好坏,将数据集划分为训练数据集和测试数据集,这样我们就可以对测试数据集的进行预测,然后使用label进行验证。
在我们得到了分类结果之后,就可以使用分类正确的数据点比上总的测试数据点,这样就可以计算出accuracy分类精准度。
使用kNN算法对手写数字分类 当然,不同的评价指标有不同的使用场景,不能乱用。
最后我们以kNN算法为例,探究了不同的超参数对模型的影响,使用sklearn中封装好的网格搜索算法,可以帮助我们进行基础调参。
混淆矩阵:
预测值0 预测值1
真实值0 TN FP
真实值1 FN TP
TN:真实值是0,预测值也是0,即我们预测是negative,预测正确了。
FP:真实值是0,预测值是1,即我们预测是positive,但是预测错误了。
FN:真实值是1ÿ