机器学习相关概念、分类、要解决的任务

最新推荐文章于 2023-05-08 11:34:17 发布

LiuDi1999

最新推荐文章于 2023-05-08 11:34:17 发布

阅读量1.2k

点赞数 1

分类专栏：推荐系统

本文链接：https://blog.csdn.net/qq_41520877/article/details/107845782

版权

本文深入浅出地介绍了机器学习的基本概念，包括训练样本、特征变量、目标变量和模型评估。通过挑选芒果的例子，阐述了机器学习模型的训练与应用，涉及到监督学习、非监督学习和强化学习的原理。最后，总结了机器学习主要解决的六大任务：分类、聚类、回归、关联、序列和异常检测问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一机器学习相关概念

在谈及机器学习的前面，我们先来看一个现实生活中的小实例。

比如，先从第一步 “挑芒果”说起。

一开始妈妈告诉你： “ 金黄色的要比浅黄的更甜些！”

后来你发现：“那些大个儿的、金黄色的芒果一定是甜的，而那些小个儿的、金黄的就只有一半是甜的了”

后来你又发现：“那些小个的、浅黄的芒果是当中最甜的”

有一天你去了其他国家，然后你发现：“ 绿色的竟然要比黄色的味道更棒 ”

就以上实例，我们可以尝试了解下面相关概念。

你在市场上随机选择了一些不同品种的芒果（我们称之为 训练样本）
把每个芒果的特征信息都写进如下的一个表格中：包括颜色、大小、形状、产地等（我们称之为 特征变量 ）
当然还有一个最重要的信息，就是每一只芒果你亲自品尝过后的甜度，你可以把它们标记为甜和不甜（这称之为 目标变量，这个过程又叫数据标记 ）。
你把这些数据输入到一个机器学习算法中去，然后这个算法就会自动的帮你找到什么特征的芒果会比较甜（这就得到了机器学习模型）

等你下一次到市场买芒果的时候，你只需要把摊位上的芒果特征信息收集一下，然后扔进你的机器学习模型中，它就会自动预测哪些芒果是甜的。

这个机器学习模型可能比之前经验的规则要更加复杂，挑选甜芒果的准确度要更高。例如之前挑选 100 个芒果，可能只有 70 个是甜的（70%的准确率, 这就是模型的评估指标 precision），而现在用机器学习模型可能有 90 个是甜的，准确率达到了 90%。

更加重要的是，你以后每吃一个芒果，都可以把它的数据添加到模型中进行训练，不断迭代升级你的模型，准确率也会越来越高。算法还可以在每次预测错误之后进行自我修正（这就是 增强学习），更妙的是，你还能用同一个算法来训练不同的模型，例如预测苹果、橙子、香蕉、葡萄、樱桃、西瓜等等（这就是 迁移学习）

总结1：

我们要挑选“甜”的芒果，即预测芒果的“甜度”，这就是机器学习的目标， “甜”的芒果叫正例， “不甜”的芒果叫负例

金黄色的芒果都是甜的，其实这就是一个最简单的模型，不过这个模型来源于经验规则，这个模型是 欠拟合 的

只尝了一家水果店总结出来的甜芒果的规律到另外一家店就不适用了，这就叫模型的 过拟合，这是因为机器学习的样本太少，没有找到更 普适的规