第二章感知机.2.2 对偶形式

最新推荐文章于 2022-04-10 10:45:47 发布

oldmao_2000

最新推荐文章于 2022-04-10 10:45:47 发布

阅读量178

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/oldmao_2001/article/details/114787616

版权

统计学习方法专栏收录该内容

36 篇文章 16 订阅

订阅专栏

文章目录

原始形式回顾
感知机的对偶形式
总结

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

原始形式回顾

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in X=R^n,y_i\in Y=\{-1,1\},i=1,2,\cdots,N$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $w, b$ ；感知机模型
$f(x)=sign(w\cdot x+b)\tag 1$
步骤：
1.任意选取超平面 $w_0,b_0$
2.在训练集中选取数据 $x_i,y_i)$
3.如果 $y_i(w\cdot x_i+b)\leq 0$ （原误分类条件是： $-y_i(w\cdot x_i+b)>0$ ），更新 $w, b$

$w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i\tag2$
4.跳转到2，直到训练集中没有误分类点。

思考：
假如数据集中有一个样本点 $x_i,y_i)$ ，在第1轮的时候被模型误分类了，然后就用公式2更新一次，就是 $w$ 增加了 $\eta y_ix_i$ ，然后模型继续迭代下一轮，然后 $x_i,y_i)$ 又被模型误分类了， $w$ 又增加 $\eta y_ix_i$ ，如果这个样本被误分类 $n_i$ 次，那么最后 $w$ 增加了 $n_i\eta y_ix_i$ ，如果记 $\alpha_i = n_i\eta$ ，那么样本点 $x_i,y_i)$ 的两个参数增量就可以写为：
$\alpha_i y_ix_i\\ \alpha_i x_i$
对于数据集中有 $N$ 个点，则总的参数更新就是N个点进行累加，最后学习到的参数写为：
$w=\sum_{i=1}^N \alpha_i y_ix_i\\ b=\sum_{i=1}^N \alpha_i y_i\tag3$
这里注意初始值 $w_0,b_0$ 均为0，不然上面的式子还要加初始值。
$\alpha_i\ge0$ ，当步长 $\eta$ 为1时， $\alpha_i$ 表示第 $i$ 个样本被模型误分类的次数，也是该样本更新的次数。
样本更新次数越多，它距离分离超平面越近，也就越难正确分类。这样的样本对学习结果影响最大。
现在把公式3代入感知机原始公式1中就可以得到感知机的对偶形式（这里只代入 $w$ ，因为代入 $b$ 没啥改进）。

感知机的对偶形式

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in X=R^n,y_i\in Y=\{-1,1\},i=1,2,\cdots,N$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $\alpha,b$ ；感知机模型为：
$f(x)=sign(\sum_{j=1}^N \alpha_j y_jx_j\cdot x+b)\tag4$
其中 $\alpha = (\alpha_1,\alpha_2,\cdots,\alpha_N)$ ，这里虽然也有b，但是这里的b和公式1中的b不一样了，这里的 $b=\sum_{j=1}^N \alpha_j y_j$ ，这里为了和本身的x下标区别，这里用了新的下标j
1.开始的时候，还没有开始对样本进行判别，因此样本更新次数为0，也就是 $\alpha=0,b=0$
2.在训练集中选取数据 $x_i,y_i)$
3.如果 $y_i(\sum_{j=1}^N \alpha_j y_jx_j\cdot x_i+b)\leq0$ （就是出现误分类），更新参数 $\alpha,b$ ：
$\alpha_i=\alpha_i+\eta\\ b=b+\eta y_i$
4.跳转到2，直到训练集中没有误分类点。
可以看到模型的对偶形式中，参数的更新只和样本的内积 $x_j\cdot x_i$ 相关（ $\alpha_j y_j$ 都是常数），因此，我们可以提前把样本的两两内积计算出来，存储到矩阵里面，这个矩阵叫Gram矩阵：
$G=[x_i\cdot x_j]_{N\times N}=\begin{bmatrix} x_1\cdot x_1 & x_1\cdot x_2 & \cdots & x_1\cdot x_N\\ x_2\cdot x_1 & x_2\cdot x_2 & \cdots&x_2\cdot x_N \\ \vdots & \vdots & \ddots &\vdots \\ x_N\cdot x_1 & x_N\cdot x_2 & \cdots & x_N\cdot x_N \end{bmatrix}$
可以看到对偶形式的参数更新只有加法，比之前一般形式要简单。而且内积可以提前计算，判断点是否误分类的时间复杂度变成 $O (1)$

总结

1.掌握感知机原始形式
2.原始形式到对偶形式的转换：转换为求解系数
3.对偶形式的意义：减少了运算量（空间复杂度、时间复杂度、无法求解变可以求解）

oldmao_2000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第二章感知机.2.2 对偶形式

文章目录原始形式回顾感知机的对偶形式总结本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。公式输入请参考：在线Latex公式原始形式回顾输入：训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}，其中xi∈X=Rn,yi∈Y={−1,1},i=1,2,⋯ ,Nx_i\in X=R^n,y_i\in Y=
复制链接

扫一扫