遇到像图1中所示的样本分类,线性方法是无法发挥作用的。因为塔是线性不可分的,这时候必须采用非线性方法。
1. 多层感知器网络
多层感知器包含一个以上隐层和一个输出层,隐层将输入映射到一个超立方体顶点,输出层完成线性分类。通过隐层不断映射,最终可以将样本映射为线性可分。隐层中每个神经元相当于一个超平面,超平面将样本点映射到超立方体顶点上。假设一个感知器网络由L层构成,每层有节点kr,每个节点的输入来自上一层每个节点的输出,其权重参数为wjkr,假设激活函数为f(x)。可以采用梯度下降算法计算权重参数: