1 初识机器学习
提供了两种机器学习的定义。
在没有明确设置的情况下,使计算机具有学习能力。——Samuel
计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。——Tom Mitchell
机器学习算法分类:
1、监督学习(Supervised learning)
2、无监督学习(Unsupervised learning)
3、强化学习(Reinforcement learning)
4、推荐系统(Recommender systems)
1.1 监督学习
在监督学习中,我们得到一个数据集并且已经知道我们的正确输出。可以认为输入和输出之间存在关系。监督学习问题分为“回归”和“分类”问题。
在回归问题中,我们试图预测连续输出中的结果,也就是说我们试图将输入变量映射到某个连续函数。
在分类问题中,我们试图预测离散输出的结果。换句话说,我们试图将输入变量映射到离散类别。
例1:
给定有关房地产市场上房屋大小的数据,尝试预测其价格。
作为尺寸函数的价格是连续的输出,所以这是一个回归问题。
我们可以把这个例子变成一个分类问题,而不是让我们的输出关于这个房子是“卖出的价格多于还是低于要价”。 在这里,我们将基于价格的房屋分为两类。
例2:
(a)回归 - 给定一张人的照片,我们必须根据给定的图片预测他们的年龄
(b)分类 - 给予患有肿瘤的患者,我们必须预测肿瘤是恶性的还是良性的。
1.2 无监督学习
无监督学习使我们能够在几乎或完全不知道结果应该是什么样子的情况下处理问题。我们可以在不了解变量的影响下,从数据中找到一定的结构。可以通过基于数据中变量之间的关系对数据进行聚类来推导出这种结构。在无监督学习的情况下,没有基于预测结果的反馈。
例:
聚类:收集1,000,000个不同的基因,并找到一种方法将这些基因自动分组成不同变量的相似或相关的组,如寿命,位置,角色等。
非聚类:“鸡尾酒会算法”,允许您在混乱的环境中查找结构。(即在鸡尾酒会上识别来自声音网格的个人声音和音乐)。