本次学习将使用mnist数据集,这个数据集是手写的图片,可以从sklearn里面下载数据集。
sklearn里面加载的数据集通常具有类似的字典结构,包括:
data键:包含一个数组,每个实例为一行,每个特征为一例。
target:包括一个带有标记的数组。
等等
可以通过索引来查看每行数值,如
x,y= mnist[″data″],mnist[″target″]
图片具体的可视化可以看书本p87
查看标签如果是字符,最好改成数字,一般大部分的机器学习算法希望是数字
在深入学习这些数据前,先创建一个测试集,在这个mnist数据集中,已经把💰60000张图片划分为训练集了,最后10000为测试集
训练2分类器,详细可看p88,记住别忘了随机种子
1.性能指标
3.3.1使用交叉验证测量准确率
k-折交叉验证法(cross_val_score),是一个评估模型的好方法
对于分类器来说,准确率一般无法成为分类器的首要性能指标,特别是当你处理有偏数据集时
3.3.2混淆矩阵
评估分类器性能最好的方法是混淆矩阵,总体思路就是统计a类别实例被分成b类的次数。
要计算混淆矩阵,需要先有一组预测才能将其与实际目标进行比较,当然,肯定是通过测试集来进行预测,不过现在不要动他(留在最后),作为替代,可以使用cross_val_predict()函数
3.3.3精度与召回率
一般来说,精度越高,召回率越低
分类的那个阈值越高,精度越高,召回率越低--一般来说
精度:在他预测为正中的总数为分母,分子为预测的结果为正确的
召回率:在所有正确的值为分母,预测正确的值(分子)
详细的可以看下面这个【机器学习】五分钟搞懂如何评价二分类模型!混淆矩阵、召回率、精确率、准确率超简单解释,入门必看!_哔哩哔哩_bilibili
roc曲线的ROC曲线详解_哔哩哔哩_bilibili
今天份学习就到这了