监督学习：分类与回归、泛化、过拟合和欠拟合

最新推荐文章于 2023-12-13 22:56:10 发布

2034丶

最新推荐文章于 2023-12-13 22:56:10 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_45315982/article/details/103250311

版权

机器学习专栏收录该内容

25 篇文章 2 订阅

订阅专栏

分类与回归

监督学习分类主要是分为两种分类与回归。
分类问题是预测类别标签。上一篇文章中说过，就是将鸢尾花分到三个可能的品种之一。分类问题中我们一般分为二分类（在两个类别中进行区分的一种特殊情况）还有就是多分类（在两个以上的类别中进行分类）二分类就相当于是对问题的是非判断。
在二分类问题中，我们通常分为正类和反类，在这里的“正”代表的是研究对象，比如说我们判断邮件是否为垃圾邮件的时候，“正”肯能就是指垃圾邮件。哪一个是正，哪一个是反，往往的是主观判断，还有跟涉及的领域有关。
回归任务的目标是预测一个连续值，编程中叫做浮点数，数学术语叫做实数。比如说根据教育水平，年龄和居住地区来判断一个人的年收入，这就是回归的一个例子。在预测收入时，预测值是一个金额，可以再给定的范围内任意的取值。再比如就是用上一年的产量，天气和农场的员工人数来预测一个农场今年的产量。同样，产量也可以去任意值。
区分分类和回归
比如说我们要对当前问题就行区分，就这个问题，判断输出是否具有某种联系性。如果在可能的结果之间具有连续性，那么就是一个回归问题。比如说我们去判断今年年收入的时候，今年是40000，去年是40001，那么我们的算法在预测明年时，本该是40000的时候，预测成了39999，所有不必过分在意这些。
比如在对电商网站的商品就是识别的时候这就是一个分类问题。

泛化、过拟合和欠拟合

在监督学习中，我们需要在训练数据上构建模型，然后对一些新的没见过的数据进行预测。如果一个模型可以对没有见过的数据进行准确的预测，我们能就能说这个模型可以从训练集泛化到测试集。所一我们需要构建一个泛化精度尽可能高的模型。
我们构建模型，使它在训练集上能够做出准确的预测。如果说训练集和测试集足够的相似，纳闷我们可以预测出模型在测试集上也可以准确的预测出。但是在某些时候这一点也并不是成立的。比如，如果我们构建了非常复杂的模型，那么在训练集的精度上可以想多高就多高。
例子
比如有一个新手数据人员，已知之前船的买家记录和和对船不感兴趣的顾客记录，想要预测某个顾客是否会买船。目标是像可能购买的人发送促销电子邮件，而不去打扰那些不感兴趣的顾客。
数据表

年龄	汽车数量	有房否	子女数	婚姻	养狗	是否买过船
66	1	是	2	丧偶	否	是
52	2	是	3	已婚	是	否
22	0	否	0	已婚	是	否
25	1	否	1	单身	否	否
44	0	否	2	离异	是	否
39	1	是	2	已婚	是	否
26	1	否	2	单身	否	否
40	3	是	1	已婚	是	否
53	2	是	2	离异	是	否
64	是	4	3	离异	否	否
52	2	是	2	已婚	是	是
33	1	否	1	单身	否	否

首先对数据进行观察，我们发现了如下的规律：“如果顾客年龄大于45，并且子女数小于3或者没有离婚，那么他就想要买船”这个预测对于这个表来说是可以使100%的正确。但是我们还可以通过这个表发现好多的规律，比如说：66，52,53,58岁的人想要买船，其他年龄的都不想买。虽然我们可以编写出很多这样的规律，但是我们不是对这个数据集进行预测，应为这是已知的。我们需要知道新顾客是否可能会买船。所以我们需要找到关于新顾客的规律，所以在训练集上进行百分之百的精度对于我们并没有帮助。
判断一个算法在新的数据上表现好坏的唯一度量，就是测试集上的评估。从直觉上看，我们认为简单的模型对新数据的泛华能力更好。如果规律是“年龄大于50岁的人想要买船”，并且可以解释为所有顾客的行为，那么我们将更相信这条规律，而不是与年龄，子女和婚姻状况都有关系的那条规律。所以，我们总想要找到最简单的模型。构建一个对现有信息量过于复杂的模型，这个就叫做过拟合。如果在你和模型的时候过分的关注的训练的细节，得到了一个在训练集中表现很好的模型，那么就存在过拟合。与之相反，如果你的模型过于简单—比如说，“有房子的人都买船”----那么那么可能无法抓住数据的全部内容以及数据中的变化，你的模型在训练集上的表现就很差。选择过于简单的模型就是欠拟合。
模型越复杂，在训练数据上的预测结果就越好。但是，如果我们的模型过于复杂，开始过多关注训练集中每个单独的数据点，模型就不能很好的泛华到新数据上。
在两者之间存在一个最佳位置，可以得到最好的泛化性能，这就是我们想要的模型
模型复杂度和训练度和测试精度之间的权衡：

蓝线为训练精度，红线泛华精度，红线最高点就是**最佳模型点**

模型复杂度与数据集大小关系

我们需要注意，模型复杂度与训练数据集中输入的变化密切相关：数据集中包含的数据点的变化范围越大，再不发生过拟合的前提下你可以使用的模型就越复杂。通常来说，收集更多的数据点可以有更多的变化范围，所以更大的数据集可以用来构建更加复杂的模型。但是，仅复制或者手机相同的数据点或者收集很多相似的数据那是没有用的。
收集更多的数据，适当构建更复杂的模型，对于监督学习往往更加有用
总结：
过拟合：在训练数据上表现良好，在未知数据上表现差。
欠拟合：在训练数据和未知数据上表现都很差。

                                                                                                             create by 0125c

2034丶

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
监督学习：分类与回归、泛化、过拟合和欠拟合

分类与回归监督学习分类主要是分为两种分类与回归。分类问题是预测类别标签。上一篇文章中说过，就是将鸢尾花分到三个可能的品种之一。分类问题中我们一般分为二分类（在两个类别中进行区分的一种特殊情况）还有就是多分类（在两个以上的类别中进行分类）二分类就相当于是对问题的是非判断。在二分类问题中，我们通常分为正类和反类，在这里的“正”代表的是研究对象，比如说我们判断邮件是否为垃圾邮件的时候，“正”肯能就...
复制链接

扫一扫

专栏目录