什么是机器学习?
提供了机器学习的两种定义。亚瑟·塞缪尔(Arthur Samuel)将其描述为:“让计算机无需明确编程即可学习的研究领域。” 这是一个较旧的非正式定义。
Tom Mitchell 提供了一个更现代的定义:“如果计算机程序在 T 中的任务上的性能(以 P 衡量)随着经验 E 提高,则称其从经验 E 中学习关于某类任务 T 和性能度量 P。 ”
举个例子🌰:下棋
-
E = 多次玩跳棋的经验
-
T = 下棋的任务。
-
P = 程序赢得下一场比赛的概率。
一般来说,任何机器学习问题都可以归为两大类之一:监督学习和无监督学习。
监督学习
在监督学习中,我们得到了一个数据集,并且已经知道我们的正确输出应该是什么样子,并且知道输入和输出之间存在关系。
监督学习问题分为“回归”和“分类”问题。
- 在回归问题中,我们试图预测连续输出中的结果,这意味着我们试图将输入变量映射到某个连续函数。
- 在分类问题中,我们试图在离散输出中预测结果。换句话说,我们试图将输入变量映射到离散类别中。
示例 1:
给定有关房地产市场上房屋大小的数据,尝试预测它们的价格。价格作为规模的函数是一个连续的输出,所以这是一个回归问题。
我们可以把这个例子变成一个分类问题,而不是让我们的输出关于房子是否“售价高于或低于要价”。在这里,我们根据价格将房屋分为两个独立的类别。
示例 2:
(a) 回归——给定一张人的照片,我们必须根据给定的照片预测他们的年龄。
(b) 分类——给定一个患有肿瘤的患者,我们必须预测肿瘤是恶性的还是良性的。
无监督学习
无监督学习使我们能够在几乎不知道结果应该是什么样子的情况下解决问题。我们可以从数据中推导出结构,而我们不一定知道变量的影响。
我们可以通过基于数据中变量之间的关系对数据进行聚类来推导出这种结构。
对于无监督学习,没有基于预测结果的反馈。
例子:
-
聚类:收集 1,000,000 个不同的基因,并找到一种方法,将这些基因自动分组到在某种程度上相似或通过不同变量(例如寿命、位置、角色等)相关的组中。
-
非聚类:“鸡尾酒会算法”,可让您在混乱的环境中找到结构。(即从鸡尾酒会上的声音网中识别个人声音和音乐)