机器学习日记Day4

最新推荐文章于 2022-05-14 23:34:47 发布

RsZHUBUXING

最新推荐文章于 2022-05-14 23:34:47 发布

阅读量741

点赞数 1

分类专栏：机器学习新手自学文章标签：机器学习人工智能回归

本文链接：https://blog.csdn.net/rszhubuxing/article/details/124649406

版权

本文探讨了监督学习的基本概念，包括分类和回归任务的差异。通过实例介绍了模拟数据集、乳腺癌数据集和波士顿房价数据集，讲解了特征工程和k近邻算法的应用。讨论了模型复杂度、过拟合与欠拟合的关系，以及如何通过调整邻居数量找到最佳的泛化能力。

摘要由CSDN通过智能技术生成

监督学习

当我们想要根据给定输入预测某个结果，并且还有输入、输出对的示例时，都应该使用监督学习。

我们的目标是对从未见过的新数据作出准确预测。

监督机器学习问题主要有两种，分别叫作分类（classification）与回归（regression）。

分类问题的目标是预测类别标签（class label），这些标签来自预定义的可选列表。

回归任务的目标是预测一个连续值，编程术语叫作浮点数（floating-pointnumber），数学术语叫作实数（real number）

两个任务的区别就是输出数据是否存在连续性。

泛化：在监督学习中，我们想要在训练数据上构建模型，然后能够对没见过的新数据（这些新数据与训练集具有相同的特性）做出准确预测。如果一个模型能够对没见过的数据做出准确预测，我们就说它能够从训练集泛化（generalize）到测试集。

过拟合：构建一个对现有信息量来说过于复杂的模型。在训练集上表现很好，但不能够泛化到测试集。

欠拟合：与过拟合相反，那么你可能无法抓住数据的全部内容以及数据中的变化，你的模型在训练集上的表现就很差，测试集更差。

我们的模型越复杂，在训练数据上的预测结果就越好。但是，如果我们的模型过于复杂，我们开始过多关注训练集中每个单独的数据点，模型就不能很好地泛化到新数据上。

模型复杂度与训练精度和测试精度之间的权衡

我们学习中往往使用的是固定数据数目的数据集，但是现实生活中，收集更多的数据我们往往能够得到更多的信息，来帮助我们预测，更多的数据可能比模型调整参数更重要。

1、模拟二分类数据集forge数据集

生成数据集
X, y=mglearn.datasets.make_forge()
#数据集绘图
mglearn.discrete_scatter(X[:,0], X[:, 1], y)
plt.legend(["Class 0","Class 1"],loc=4)#生成图例的位置
plt.xlabel("First feature")
plt.ylabel("Second feature")
print("X.shape:{}".format(X.shape))