机器学习--day3--分类

本次学习将使用mnist数据集,这个数据集是手写的图片,可以从sklearn里面下载数据集。

sklearn里面加载的数据集通常具有类似的字典结构,包括:

data键:包含一个数组,每个实例为一行,每个特征为一例。

target:包括一个带有标记的数组。

等等

可以通过索引来查看每行数值,如

x,y= mnist[″data″],mnist[″target″]

图片具体的可视化可以看书本p87

查看标签如果是字符,最好改成数字,一般大部分的机器学习算法希望是数字

在深入学习这些数据前,先创建一个测试集,在这个mnist数据集中,已经把💰60000张图片划分为训练集了,最后10000为测试集

训练2分类器,详细可看p88,记住别忘了随机种子

1.性能指标

3.3.1使用交叉验证测量准确率

k-折交叉验证法(cross_val_score),是一个评估模型的好方法

对于分类器来说,准确率一般无法成为分类器的首要性能指标,特别是当你处理有偏数据集时

3.3.2混淆矩阵

评估分类器性能最好的方法是混淆矩阵,总体思路就是统计a类别实例被分成b类的次数。

要计算混淆矩阵,需要先有一组预测才能将其与实际目标进行比较,当然,肯定是通过测试集来进行预测,不过现在不要动他(留在最后),作为替代,可以使用cross_val_predict()函数

3.3.3精度与召回率

一般来说,精度越高,召回率越低

分类的那个阈值越高,精度越高,召回率越低--一般来说

精度:在他预测为正中的总数为分母,分子为预测的结果为正确的

召回率:在所有正确的值为分母,预测正确的值(分子)

详细的可以看下面这个【机器学习】五分钟搞懂如何评价二分类模型!混淆矩阵、召回率、精确率、准确率超简单解释,入门必看!_哔哩哔哩_bilibili

roc曲线的ROC曲线详解_哔哩哔哩_bilibili

今天份学习就到这了

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值