## 机器学习简介
首先简单介绍一下机器学习(Machine Learning,ML)和深度学习(Deep Learning, DL)的基本概念。机器学习,顾名思义,机器具备有学习的能力。具体来讲,机器学习就是让 机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事。比如语音识别, 机器听一段声音,产生这段声音对应的文字。我们需要的是一个函数,该函数的输入是声音 信号,输出是这段声音信号的内容。这个函数显然非常复杂,人类难以把它写出来,因此想通 过机器的力量把这个函数自动找出来。还有好多的任务需要找一个很复杂的函数,以图像识 别为例,图像识别函数的输入是一张图片,输出是这个图片里面的内容。AlphaGo 也可以看 作是一个函数,机器下围棋需要的就是一个函数,该函数的输入是棋盘上黑子跟白子的位置, 输出是机器下一步应该落子的位置。
随着要找的函数不同,机器学习有不同的类别。假设要找的函数的输出是一个数值,一个 标量(scalar),这种机器学习的任务称为回归。举个回归的例子,假设机器要预测未来某一个 时间的 PM2.5 的数值。机器要找一个函数 f,其输入是可能是种种跟预测 PM2.5 有关的指 数,包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等,输出是明天中午的 PM2.5的数值,找这个函数的任务称为回归(regression)。
除了回归以外,另一个常见的任务是分类(classification,)。分类任务要让机器做选择 题。人类先准备好一些选项,这些选项称为类别(class),现在要找的函数的输出就是从设定 好的选项里面选择一个当作输出,该任务称为分类。举个例子,每个人都有邮箱账户,邮箱账 户里面有一个函数,该函数可以检测一封邮件是否为垃圾邮件。分类不一定只有两个选项,也 可以有多个选项。
## 局部极小值与鞍点
本章介绍了深度学习常见的概念,理解这些概念能够帮助我们从不同角度来更好地优化 神经网络。要想更好地优化神经网络,首先,要理解为什么优化会失败,收敛在局部极限值与鞍点会导致优化失败。其次,可以对学习率进行调整,使用自适应学习率和学习率调度。最后,批量归一化可以改变误差表面,这对优化也有帮助。
判断一个临界点到底是局部极小值还是鞍点需要知道损失函数的形状。可是怎么知道损 失函数的形状?网络本身很复杂,用复杂网络算出来的损失函数显然也很复杂。虽然无法完整知道整个损失函数的样子,但是如果给定某一组参数,比如 θ′,在 θ′ 附近的损失函数是有办法写出来的——使用泰勒级数近似即可。