-
感知机的损失明明是几何距离,为什么可以省略 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} ∣∣w∣∣21,将函数距离当做最后的损失函数?
答:因为感知机的使用前提就是认为原数据线性可分,也就是说到最后函数的损失会降到 0 。如果说函数损失为 0,那么是否乘以 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} ∣∣w∣∣21 的意义就不大了(因为 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} ∣∣w∣∣21不可能为0,只有函数间隔部分可能为0)。换句话说,是否加上 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} ∣∣w∣∣21,都不会影响最终的损失结果,故为了方便计算,将其省略。 -
能够简单阐述一下几何间隔的推导过程吗?
如上图, ∣ ∣ d ∣ ∣ 2 ∗ y i ||d||_2*y_i ∣∣d∣∣2∗yi就是最终几何距离,其中 y i y_i yi 只是用来保证距离始终为正的。 -
为什么 在求取间隔分离超平面时,说函数间隔 γ ^ \hat{\gamma} γ^ 的取值并不影响最优化问题的求解?
最优化问题的表示形式如下:
其中
γ
\gamma
γ 是几何间隔,转换后的优化函数中的
γ
^
\hat{\gamma}
γ^ 是函数间隔。
答:假设当
γ
^
=
1
\hat{\gamma}=1
γ^=1时,
w
=
w
i
,
b
=
b
i
w=w_i,b=b_i
w=wi,b=bi。那么任何其他
γ
\gamma
γ 的取值都可以使用
λ
⋅
γ
^
\lambda\cdot\hat{\gamma}
λ⋅γ^表示,由于函数间隔的性质,我们可以算出此时的
w
,
b
w,b
w,b分别为
λ
w
i
\lambda w_i
λwi、
λ
b
i
\lambda b_i
λbi。然后我们将任意数
λ
⋅
γ
^
\lambda\cdot\hat{\gamma}
λ⋅γ^、
λ
w
i
\lambda w_i
λwi、
λ
b
i
\lambda b_i
λbi带入上面的目标函数和约束函数中,发现无论
λ
\lambda
λ 等于几,都会被抵消,无法影响上列优化函数的解。综上,我们完全可以直接将
γ
^
\hat{\gamma}
γ^ 设置为 1 。得到下面目标函数:
m
a
x
1
∣
∣
w
∣
∣
2
max \frac{1}{||w||_2}
max∣∣w∣∣21。
然后由于
1
∣
∣
w
2
∣
∣
\frac{1}{||w_2||}
∣∣w2∣∣1 和
1
2
∣
∣
w
∣
∣
2
\frac{1}{2}||w||_2
21∣∣w∣∣2 等价。因此,最终的目标函数可以化为下面形式: