最简单的深度网络称为多层感知机。
多层感知机由多层神经元组成,每一层与它的上一层相连,从中接收输入;
同时每一层也与它的下一层相连,影响当前层的神经元。
当我们训练容量较大的模型时,我们面临着*过拟合*的风险。
因此,本章将从基本的概念介绍开始讲起,包括*过拟合*、*欠拟合*和模型选择。
为了解决这些问题,本章将介绍*权重衰减*和*暂退法*等正则化技术。
我们还将讨论数值稳定性和参数初始化相关的问题,
这些问题是成功训练深度网络的关键。
在本章的最后,我们将把所介绍的内容应用到一个真实的案例:房价预测。
关于模型计算性能、可伸缩性和效率相关的问题,我们将放在后面的章节中讨论。
感知机
感知机实际是一个二分类的问题.
有多种选择,例如上面的输出可以修改为当x<=0时,
(x)=-1。
训练感知机
[ <
,
>+ b ]≤ 0: 左边是标签值,右边是预测值,相当于
*
≤0。也就是说,当感知机小于等于0时预测错误,即预测值和观测值异号时表示分类错误。此时,需要更新
和b,直到所有的类都分类正确。
更新参数时加上的部分是损失函数分别对
和b求导得到的。
这条max语句对应上面的if语句。根据取值判断分类是否正确,是否满足if语句以及更新参数。
举个例子
分类:狗和猫
黑色的斜线就是当前的分类情况。
添加一只狗,继续进行分类,需要更新参数。
继续添加狗和猫,不断地更新参数,直到所有的分类都正确。
收敛定理
其中,。
XOR 问题(Minsky& Papert,1969)
感知机不能拟合 XOR函数,它只能产生线性分割面