存在某个超平面 w·x+b=0
定义任意一点到平面的距离为:
其中分类错误的点 yi(wxi+b)<0
令所有参数的平方和为1,设定M是所有分类错误的点,则损失函数使得所有的错分店到超平面的距离最小。
solution:根据柯西-施瓦兹不等式有:
梯度下降迭代公式:
感知机的收敛性证明:
《统计学习方法》p32-p33页
由于数据集T是线性可分的,假设存在一个理想的超平面wopt,且||wopt||=1,wopt能够将T中的所有样本点正确地分类。
如前所述,若正确分类,则对于数据集 T中任何一个点(xi, yi),都有yi(w*xi)>0
取r=min{yi(wopt*Xi)} ,并且令R=max||xi|| ,则迭代次数k满足下列不等式:
在证明过程中,推导出了两个不等式,一个是:wk*wopt >= knr (k是迭代次数,n是迭代步长,r是min{yi(wopt*Xi))
超平面wopt是理想的超平面,能够完美地将所有的样本点正确地分开。wk是采用感知机学习算法使用梯度下降不断迭代求解的超平面,二者之间的内积,用来衡量这两个超平面的接近程度。因为两个向量的内积越大,说明这两个向量越相似(接近),也就是说:不断迭代后的wk越来越接近理想的超平面wopt了。(向量的模为1,||wopt||=1)
结合上面的二个不等式,有:
其中第一个不等号成立是因为:wk*wopt >= knr
第二个不等号成立是因为:柯西-施瓦兹不等式
第三个不等号成立是因为:第二个不等式 和 ||wopt||=1