感知机模型收敛性推导
证明的前提是训练数据集线性可分。现在我们想证明感知机模型是会收敛的,也就是说错误训练样例的个数存在一个上限。这个定理是Novikoff在1962年时给予证明的,我阅读其论文和李航的统计学习方法之后自己进行了推导。
首先,如果训练数据集线性可分,那么所有训练数据点到分离超平面的距离存在一个最短距离,我们记为
γ
,为了我们对分离超平面的参数的记法进行修改
w^=[wTb]T,x^=[xT1]T
,这样分离超平面可以写成
w^x^=0
,令最终的分离超平面为
w^∗
且其范数为1。这里我们使用一个重要的不等式进行证明——柯西不等式,我们这样使用
w^⋅w^∗≤||w^||⋅||w^∗||
这里使用迭代的思想来证明,当算法迭代到第k次时
w^kw^∗=(w^k−1+x^tyt)w^∗≥w^k−1w^∗+γ≥⋯≥kγ
其中第一个等号根据梯度下降法中参数的迭代步骤,第一个不等号根据任何数据点到最终分离超平面距离存在最小值。
||w^k||2==≤≤≤||w^k−1+x^tyt||2||w^k−1||2+2(w^k−1x^tyt)+||x^t||2||w^k−1||2+||x^t||2||w^k−1||2+R2⋯≤kR2
其中第一个等号根据梯度下降法中参数的迭代,第二个不等号根据y的2次方为1(y=-1|1),第一个不等号根据误分类样本t满足
w^k−1x^tyt<0
,第二个不等号是令
R=max||x^t||
,这样柯西不等式可以写成
kγ≤w^⋅w^∗≤||w^||⋅||w^∗||≤k√R
其中第三个不等号成立因为最终分离超平面的参数w的范数为1。综上获得这样的不等式
k≤R2γ2
说明错误分类次数存在一个上限值,算法最终的错误分类次数达到上限时就会收敛。因此
如果数据线性可分,那么感知机模型确实会收敛。