感知机模型收敛性推导

最新推荐文章于 2024-05-28 17:31:53 发布

persist_forever

最新推荐文章于 2024-05-28 17:31:53 发布

阅读量6.4k

点赞数

分类专栏：算法推导

本文链接：https://blog.csdn.net/sinat_26376671/article/details/44851035

版权

算法推导专栏收录该内容

3 篇文章 0 订阅

订阅专栏

感知机模型收敛性推导

证明的前提是训练数据集线性可分。现在我们想证明感知机模型是会收敛的，也就是说错误训练样例的个数存在一个上限。这个定理是Novikoff在1962年时给予证明的，我阅读其论文和李航的统计学习方法之后自己进行了推导。
首先，如果训练数据集线性可分，那么所有训练数据点到分离超平面的距离存在一个最短距离，我们记为 $\gamma$ ，为了我们对分离超平面的参数的记法进行修改 $\hat w=[w^T b]^T, \hat x=[x^T 1]^T$ ，这样分离超平面可以写成 $\hat w \hat x=0$ ，令最终的分离超平面为 $\hat w^*$ 且其范数为1。这里我们使用一个重要的不等式进行证明——柯西不等式，我们这样使用

w^\cdot w^* \leq | | w^| | \cdot | | w^* | |

$\hat w \cdot \hat w^* \leq ||\hat w|| \cdot||\hat w^*||$ 这里使用迭代的思想来证明，当算法迭代到第k次时

w^k w^* = (w^k - 1 + x^t y t) w^* \geq w^k - 1 w^* + γ \geq \dots \geq k γ

$\hat w_k \hat w^* =(\hat w_{k-1} + \hat x_ty_t)\hat w^* \geq \hat w_{k-1}\hat w^* + \gamma \geq \dots \geq k\gamma$ 其中第一个等号根据梯度下降法中参数的迭代步骤，第一个不等号根据任何数据点到最终分离超平面距离存在最小值。

| | w^k | | 2 = = \leq \leq \leq | | w^k - 1 + x^t y t | | 2 | | w^k - 1 | | 2 + 2 (w^k - 1 x^t y t) + | | x^t | | 2 | | w^k - 1 | | 2 + | | x^t | | 2 | | w^k - 1 | | 2 + R 2 \dots \leq k R 2

$\begin{eqnarray*} ||\hat w_k||^2 &=& ||\hat w_{k-1} + \hat x_ty_t||^2 \\ &=& ||\hat w_{k-1}||^2 + 2(\hat w_{k-1}\hat x_t y_t) + ||\hat x_t||^2 \\ &\leq& ||\hat w_{k-1}||^2 + ||\hat x_t||^2 \\ &\leq& ||\hat w_{k-1}||^2 + R^2 \\ &\leq& \dots \leq kR^2 \end{eqnarray*}$ 其中第一个等号根据梯度下降法中参数的迭代，第二个不等号根据y的2次方为1（y=-1|1），第一个不等号根据误分类样本t满足