原书中的定理:
对于(1)
上图中
γ
\gamma
γ 代表着
在定理中 W ^ o p t \hat{W}_{opt} W^opt有个约束 ∥ W ^ o p t ∥ = 1 \lVert \hat{W}_{opt}\Vert=1 ∥W^opt∥=1,这个约束是为了得到唯一的 W ^ o p t \hat{W}_{opt} W^opt
W
^
o
p
t
\hat{W}_{opt}
W^opt 代表该参数可以完全把样本线性可分
对于(2)
了解了各参数的含义后,接下来证明两个公式:
假设
W
o
^
=
(
0
,
0
,
.
.
.
.
,
0
)
T
\hat{W_o} = (0,0,....,0)^T
Wo^=(0,0,....,0)T;即
∥
W
o
^
∥
=
0
\lVert\hat{W_o}\lVert=0
∥Wo^∥=0
W
^
k
=
(
W
k
,
b
k
)
T
\hat{W}_k = (W_k, b_k)^T
W^k=(Wk,bk)T代表在更新过程中的参数
证明1
过程(运用了递推)
在感知机中
W
^
k
\hat{W}_{k}
W^k可以由
W
^
k
−
1
\hat{W}_{k-1}
W^k−1得到
证明2
前置知识:
推导过程:
注意:
y
i
=
1
或
−
1
y_i = 1或-1
yi=1或−1
对于错误分类的点
y
i
∗
(
w
∗
x
i
+
b
)
<
0
y_i*(w*x_i+b)<0
yi∗(w∗xi+b)<0
至于
R
2
R^2
R2,可以在定理中找到其含义
R
=
m
a
x
(
∥
X
i
∥
)
R =max(\lVert X_i\lVert)
R=max(∥Xi∥)
下图画圈的地方是根据柯西不等式得出,
之后的推理运用了上面的两个公式:
反思:
对于证明的这两个公式可以看出
我们更新的
W
k
^
\hat{W_k}
Wk^要距离
W
^
o
p
t
\hat{W}_{opt}
W^opt越来越近,即更新
W
^
k
\hat{W}_k
W^k要使得到的参数可以线性划分样本点:
- 所以这两个向量的内积才会大(但向量内积大也可能是 w ^ k \hat{w}_k w^k的长度变长)
- 所以才会右第二个结论来对其范数的限制