机器学习中的监督学习

羅212

于 2024-09-16 16:19:58 发布

阅读量673

点赞数 12

文章标签：机器学习学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_81695297/article/details/142303116

版权

监督学习与非监督学习

如果数据集中样本点只包含了模型的输入x，那么就要采用非监督学习的算法；

如果这些样本点以（x，y）这样的输入-输出二元组的形式出现（有数据标签），那么就可以采样监督学习的算法；

监督学习

回归

回归问题在生活中非常常见，其最简单的形式是一个连续函数的拟合。

例如：

• 一个购物网站想要计算出其在某个时期的预期收益，研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量，根据现有数据拟合函数，得到在未来某一时刻的预测值。

• 回归问题中通常使用均方损失函数来作为度量模型效果的指标，最简单的求解例子是最小二乘法。

线性回归可以应用的场景

1.预测房价

• 假设我们想要预测某个城市的房价。我们可以收集到该城市过去几年的房价数据，以及一些相关的因素，比如房屋的面积、房龄、所处区域、楼层等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的房价进行预测。

• 在这个例子中，自变量可以包括面积、房龄、所处区域等，因变量是房价。

• 我们可以通过最小二乘法来估计截距和斜率的值，从而得到一条最佳拟合直线。这条直线可以用来预测未来的房价，也可以用来分析不同因素对房价的影响。

2.预测销售额

• 假设我们想要预测某家公司未来一年的销售额。

• 我们可以收集到该公司过去几年的销售额数据，以及一些相关的因素，比如广告投入、促销活动、季节性因素等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的销售额进行预测。

• 在这个例子中，自变量可以包括广告投入、促销活动、季节性因素等，因变量是销售额。我们可以通过最小二乘法来估计截距和斜率的值，从而得到一条最佳拟合直线。这条直线可以用来预测未来的销售额，也可以用来分析不同因素对销售额的影响。

分类

想要预测（检测）的目标是猫，那么在数据集中猫为正样本（Positive ），其他狗、兔子、狮子这些数据为负样本（Negative ）。

• 将这只猫预测（分类）为狗、兔子、其他预测结果为错（False）；将这只猫预测为猫，预测结果为对（True）。

虽然准确率可以判断总的正确率，但是在样本不平衡的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占90%，负样本占10%，样本是严重不平衡的。对于这种情况，我们只需要将全部样本预测为正样本即可得到90% 的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。 ◦ 这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。

小结

•本章对机器学习基础知识进行了介绍，这部分是理解后续高级操作的基础。

• 监督学习与非监督学习主要针对数据集定义。

• 有监督数据集需要人工标注，成本较为昂贵，但是在训练模型时往往能够保障效果。

• 无监督数据集一般不需要过多人工操作，可以通过爬虫等方式自动大量获得。

• 由于没有监督信息的约束，需要设计巧妙的学习算法才能有效利用无监督数据集训练模型，不过大量廉价数据可以从另一个方面提高模型性能。

• 模型评估需要根据模型的训练历史判断模型是否处于欠拟合或过拟合状态。尽管有一定的规律作为指导，而且有一些工具可以辅助分析，但是模型的评估过程一般需要较为丰富的经验。

• 读者可以在深度学习实验中有意识地训练自己的模型评估能力。

关注

12
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。