机器学习日记Day4

本文探讨了监督学习的基本概念,包括分类和回归任务的差异。通过实例介绍了模拟数据集、乳腺癌数据集和波士顿房价数据集,讲解了特征工程和k近邻算法的应用。讨论了模型复杂度、过拟合与欠拟合的关系,以及如何通过调整邻居数量找到最佳的泛化能力。
摘要由CSDN通过智能技术生成

监督学习

当我们想要根据给定输入预测某个结果,并且还有输入、输出对的示例时,都应该使用监督学习。

我们的目标是对从未见过的新数据作出准确预测。

监督机器学习问题主要有两种,分别叫作分类(classification)与回归(regression)。

分类问题的目标是预测类别标签(class label),这些标签来自预定义的可选列表。

回归任务的目标是预测一个连续值,编程术语叫作浮点数(floating-pointnumber),数学术语叫作实数(real number)

两个任务的区别就是输出数据是否存在连续性。

泛化:在监督学习中,我们想要在训练数据上构建模型,然后能够对没见过的新数据(这些新数据与训练集具有相同的特性)做出准确预测。如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化(generalize)到测试集。

过拟合:构建一个对现有信息量来说过于复杂的模型。在训练集上表现很好,但不能够泛化到测试集。

欠拟合:与过拟合相反,那么你可能无法抓住数据的全部内容以及数据中的变化,你的模型在训练集上的表现就很差,测试集更差。

我们的模型越复杂,在训练数据上的预测结果就越好。但是,如果我们的模型过于复杂,我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。

模型复杂度与训练精度和测试精度之间的权衡

我们学习中往往使用的是固定数据数目的数据集,但是现实生活中,收集更多的数据我们往往能够得到更多的信息,来帮助我们预测,更多的数据可能比模型调整参数更重要。

1、模拟二分类数据集forge数据集

生成数据集
X, y=mglearn.datasets.make_forge()
#数据集绘图
mglearn.discrete_scatter(X[:,0], X[:, 1], y)
plt.legend(["Class 0","Class 1"],loc=4)#生成图例的位置
plt.xlabel("First feature")
plt.ylabel("Second feature")
print("X.shape:{}".format(X.shape))

数据集可视化

可以看出这个数据集有26个数据点和2个特征

2、使用模拟数据集wave来说明回归算法

 我们用模拟的wave数据集来说明回归算法。wave数据集只有一个输入特征和一个连续的目标变量(或响应),后者是模型想要预测的对象。下面绘制的图像中单一特征位于x轴,回归目标࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

RsZHUBUXING

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值