一 机器学习相关概念
在谈及机器学习的前面,我们先来看一个现实生活中的小实例。
比如,先从第一步 “挑芒果”说起。
- 一开始妈妈告诉你: “ 金黄色的要比浅黄的更甜些!”
- 后来你发现:“那些大个儿的、金黄色的芒果一定是甜的,而那些小个儿 的、金黄的就只有一半是甜的了”
- 后来你又发现:“那些小个的、浅黄的芒果是当中最甜的”
- 有一天你去了其他国家,然后你发现:“ 绿色的竟然要比黄色的味道更棒 ”
就以上实例,我们可以尝试了解下面相关概念。
-
你在市场上随机选择了一些 不同品种的芒果(我们称之为 训练样本)
-
把每个芒果的特征信息都写进如下的一个表格中:包括 颜色、大小、形状、 产地 等(我们称之为 特征变量 )
-
当然还有一个最重要的信息,就是每一 只芒果你亲自品尝过后的 甜度,你可以把它们标记为 甜和不甜(这称之为 目标变量,这个过程又叫数据标记 )。
-
你把这些数据输入到一个机器学习 算法中去,然后这个算法就会自动的帮你找到什么特征的芒果会比较甜 (这就得到了机器学习模型)
等你下一次到市场买芒果的时候,你只需要把摊位上的 芒果特征信息收集 一下,然后扔进你的 机器学习模型中,它就会自动预测 哪些芒果是甜的。
这个机器学习模型可能比之前经验的规则要更加复杂,挑选甜芒果的准确度 要更高。例如之前挑选 100 个芒果,可能只有 70 个是甜的(70%的准确率, 这就是模型的评估指标 precision),而现在用机器学习模型可能有 90 个是 甜的,准确率达到了 90%。
更加重要的是,你以后每吃一个芒果,都可以把它的数据添加到模型中进行训练,不断迭代升级你的模型,准确率也会越来越高。算法还可以在每次预测错误之后进行自我修正(这就是 增强学习), 更妙的是,你还能用同一个算法来训练不同的模型,例如预测苹果、橙子、 香蕉、葡萄、樱桃、西瓜等等(这就是 迁移学习)
总结1:
- 我们要挑选“甜”的芒果,即预测芒果的“甜度”,这就是 机器学习的目标, “甜”的 芒果叫 正例, “不甜”的芒果叫 负例
- 金黄色的芒果都是甜的,其实这就是一个 最简单的模型,不过这个模型来源 于经验规则,这个模型是 欠拟合 的
- 只尝了一家水果店总结出来的甜芒果的规律到另外一家店就不适用了,这就叫模型的 过 拟合,这是因为机器学习的样本太少,没有找到更 普适的规