序言
亚瑟·塞缪尔(Arthur Samuel)是美国早期计算机游戏和人工智能领域的领军人物,他于1959年在IBM工作时创造了“机器学习”一词。他将机器学习定义为“赋予计算机无需明确编程即可学习的能力的研究领域”。然而,机器学习并没有一个普遍接受的定义。不同的作者对这个词有不同的定义。下面我们再给出两个定义。
-
机器学习是对计算机进行编程,以使用示例数据或过去的经验来优化性能标准。我们有一个定义了一些参数的模型,学习是执行计算机程序,使用训练数据或过去的经验来优化模型的参数。该模型可以是预测性的,以便在将来进行预测,或者是描述性的,以便从数据中获得知识。
-
被称为机器学习的研究领域关注的问题是如何构建随着经验而自动改进的计算机程序。
机器学习是人工智能的一个子领域,涉及算法和统计模型的开发,使计算机能够通过经验提高其在任务中的表现。这些算法和模型旨在从数据中学习,并在没有明确指令的情况下做出预测或决策。机器学习有几种类型,包括监督学习、无监督学习和强化学习。监督学习涉及在标记数据上训练模型,而非监督学习涉及在未标记数据上训练模型。强化学习涉及通过试错来训练模型。机器学习应用广泛,包括图像和语音识别、自然语言处理和推荐系统。
学习的定义
计算机程序被称为学习根据关于某类任务T的经验E和性能度量P,如果其在任务T的性能(由P度量)随着经验E而提高。
例子
-
手写识别学习问题
-
任务T:识别和分类图像中的手写文字
-
性能P:正确分类的单词的百分比
-
训练经验E:具有给定分类的手写单词数据集
-
-
机器人驾驶学习问题
-
任务T:使用视觉传感器在高速公路上驾驶
-
性能P:出错前的平均行驶距离
-
培训经验E:在观察人类驾驶员时记录的一系列图像和转向命令
-
定义: 从经验中学习的计算机程序被称为机器学习程序或简称为学习程序。
机器学习分类
根据学习系统可用的学习“信号”或“响应”的性质,机器学习实现分为四大类,如下所示:
A.监督学习:
监督学习是基于示例输入-输出对来学习将输入映射到输出的函数的机器学习任务。给定的数据被标记。双方分类和回归问题是监督学习问题。
-
示例—考虑以下有关进入诊所的患者的数据。数据包括患者的性别和年龄,每个患者都被标记为“健康”或“患病”。
性别 | 年龄 | 标签 |
M | 48 | 生病的 |
M | 67 | 生病的 |
F | 53 | 健康的 |
M | 49 | 生病的 |
F | 32 | 健康的 |
M | 34 | 健康的 |
M | 21 | 健康的 |
B.无监督学习:
无监督学习是一种机器学习算法,用于从由没有标记响应的输入数据组成的数据集中得出推论。在无监督学习算法中,分类或归类不包括在观察中。示例:考虑以下有关进入诊所的患者的数据。数据包括患者的性别和年龄。
性别 | 年龄 |
M | 48 |
M | 67 |
F | 53 |
M | 49 |
F | 34 |
M | 21 |
作为一种学习,它类似于人类用来判断某些对象或事件是否来自同一类的方法,例如通过观察对象之间的相似程度。你在网上找到的一些营销自动化形式的推荐系统就是基于这种类型的学习。
C.强化学习:
强化学习是让智能体在世界中行动以最大化其回报的问题。
在大多数形式的机器学习中,学习者不会被告知要采取什么行动,而是必须通过尝试来发现哪些行动会产生最大的回报。例如,考虑教一只狗一个新的技巧:我们不能告诉它什么该做,什么不该做,但如果它做了正确/错误的事情,我们可以奖励/惩罚它。
D.半监督学习:
其中给出了不完整的训练信号:缺少一些(通常是许多)目标输出的训练集。这一原则有一种特殊情况,称为转导,即在学习时已知整个问题实例集,只是缺少部分目标。半监督学习是一种机器学习方法,它在训练过程中将少量标记数据与大量未标记数据相结合。半监督学习介于无监督学习和有监督学习之间。
根据所需输出进行分类
当考虑机器学习系统的期望输出时,出现机器学习任务的另一种分类:
-
分类: 当输入被分成两个或多个类时,学习者必须产生一个模型,该模型将看不见的输入分配给这些类中的一个或多个(多标签分类)。这通常以监督的方式处理。垃圾邮件过滤是分类的一个示例,其中输入是电子邮件(或其他)消息,类别是“垃圾邮件”和“非垃圾邮件”。
-
回归: 当输出是连续的而不是离散的时,这也是一个监督问题。
-
聚类: 当一组输入要被分成组时。与分类不同的是,这些组事先并不知道,这通常是一项无人监督的任务。
总结
当使用典型方法无法解决问题时,机器学习就会出现。机器学习算法与新的计算技术相结合,促进了可扩展性并提高了效率。现代机器学习模型可以用来预测疾病的爆发和股票的涨跌。