机器什么时候能够学习？_机器学习与深度学习在信息技术课程中什么时候学习-CSDN博客

本文链接：https://blog.csdn.net/Analy101/article/details/107920446

本文介绍了机器学习的基本概念，包括定义、组成部分，并与其他领域如数据挖掘、人工智能、统计学进行对比。重点讲解了感知机模型，包括PLA算法的工作原理和线性可分条件。最后，探讨了机器学习的分类方式，涉及监督、无监督、半监督和强化学习等。

摘要由CSDN通过智能技术生成

文章目录

本系列是台湾大学资讯工程系林軒田（Hsuan-Tien Lin）教授开设的《 机器学习基石》课程的梳理。重在梳理，而非详细的笔记，因此可能会略去一些细节。

该课程共16讲，分为4个部分：

机器什么时候能够学习？（When Can Machines Learn？）
机器为什么能够学习？（Why Can Machines Learn？）
机器怎样学习？（How Can Machines Learn？）
机器怎样可以学得更好？（How Can Machines Learn Better？）

本文是第1部分，对应原课程中的1-3讲。虽然第4讲在原课程中也放入了第1部分，但我认为它与后面第2部分的连贯性更强，因此移到后面。

本部分的主要内容：

介绍机器学习的概念与流程，并将它和其他几个相似的领域进行比较；
介绍感知机模型，说明普通的感知机学习算法PLA在什么条件下可以停下，如果不满足条件该怎么办；
列举机器学习的类别。

1 机器学习的概念

1.1 定义

机器学习的定义：improving some performance measure with experience computed from data。

什么时候可以用机器学习？有几个关键的地方：

确实存在一些需要学习的“潜在模式”，如预测下一次丢骰子的点数，就不能用机器学习；
没有简单的可编程的定义，如判断一张图像中是否包含了圆，就可以直接通过编程解决，不需要使用机器学习；
有一些关于要学习的模式的数据，如预测未来核能的滥用是否会导致地球毁灭，就不能用机器学习，因为没有历史数据。

1.2 组成部分

机器学习的实用定义如下图（灰字是以信用卡审批为例）：

可以看到，机器学习有以下几个要素：

未知的目标函数 $\mathcal X\rightarrow\mathcal{Y}$ ，在例中为理想的信用卡审批规则；
训练样本 $\mathcal{D}$ ，在例中为银行中信用卡审批的历史记录；
假设集 $\mathcal{H}$ ，在例中为一系列的候选规则；
学习算法 $\mathcal{A}$ ；
最终挑选出的假设 $g$ ，满足 $g\approx f$ ，在例中为最终“学习”出的规则。

机器学习的实用定义：使用数据计算出最接近于目标函数 $f$ 的假设 $g$ 。

1.3 和其他领域的关系

1.3.1 数据挖掘（DM）

数据挖掘：用（大）数据寻找感兴趣的性质。

如果这里所说的“感兴趣的性质”就是“接近目标函数的假设”，那么机器学习就等同于数据挖掘；
如果“感兴趣的性质”与“接近目标函数的假设”是相关的，那么数据挖掘可用来帮助机器学习，反之亦然；
传统的数据挖掘还关注在大数据库中的有效计算。

在现实中，很难区分ML和DM。

1.3.2 人工智能（AI）

人工智能：计算一些的有智能行为的东西。

如果 $g\approx f$ 就是那个有智能行为的东西，那么ML可用于实现AI。

如下棋，传统AI的做法是做博弈树，而ML的做法是从大量数据中进行学习。因此，机器学习是实现人工智能的一种途径。

1.3.3 统计学（Statistics）

统计学：使用数据对未知过程进行推断。

如果推断的结果就是 $g$ ， $f$ 是未知的，那么统计学就可以就用来实现机器学习；
传统的统计学聚焦于在数学假设下可证明的结果，而不太关注计算。

统计学为机器学习提供了很多有用的工具。

2 分类学习之感知机模型

2.1 PLA

这里介绍一个简单的分类模型：感知机（Perceptron）。

回顾上一节，在假设集 $\mathcal{H}$ 中，我们可以使用哪些假设？

在分类问题中，要预测的变量是正/负，或表示成 $+ 1$ / $- 1$ 。我们可以对自变量做线性加权求和，然后设定一个阈值，若高于阈值，则分类为正，若低于阈值，则分类为负。若将“阈值”也看作在自变量中补入的常数项（ $\mathbb{w}$ 中补入对应的常数1），则这个模型可以写作 $h(x)=\text{sign}(\mathbf{w}^T\mathbf{x})$ 。

每一个 $\mathbb{w}$ ，都对应了一个假设。

那么，要如何从假设集 $\mathcal{H}$ 中找出最接近于目标函数的 $g$ 呢？也就是如何找出最好的 $\mathbb{w}$ ？

可以这样做，先任意设一个初始的 $\mathbf{w}_0$ （比如 $\mathbf{0}$ ），然后：

从该点开始，寻找错误分类的样本点，即找到满足 $\text{sign}(\mathbf{w}^T_t \mathbf{x}_{n(t)})\ne y_{n(t)}$ 的点 $(\mathbf{x}_{n(t)}, y_{n(t)})$ ；
利用找到的错误分类点对 $\mathbf{w}$ 进行更新，更新规则是： $\mathbf{w}_{t+1}\leftarrow\mathbf{w}_t +y_{n(t)}\mathbf{x}_{n(t)}$ 。
不断重复上述过程，直到找不出错误分类的点为止，最终得到要找的 $\mathbf{w}_{PLA}$ ，把它作为 $g$ 。