统计学习中遇到的一些问题

  1. 感知机的损失明明是几何距离,为什么可以省略 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} w21,将函数距离当做最后的损失函数?
    :因为感知机的使用前提就是认为原数据线性可分,也就是说到最后函数的损失会降到 0 。如果说函数损失为 0,那么是否乘以 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} w21 的意义就不大了(因为 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} w21不可能为0,只有函数间隔部分可能为0)。换句话说,是否加上 1 ∣ ∣ w ∣ ∣ 2 \frac{1}{||w||_2} w21,都不会影响最终的损失结果,故为了方便计算,将其省略。

  2. 能够简单阐述一下几何间隔的推导过程吗?
    在这里插入图片描述
    在这里插入图片描述
    如上图, ∣ ∣ d ∣ ∣ 2 ∗ y i ||d||_2*y_i d2yi就是最终几何距离,其中 y i y_i yi 只是用来保证距离始终为正的。

  3. 为什么 在求取间隔分离超平面时,说函数间隔 γ ^ \hat{\gamma} γ^ 的取值并不影响最优化问题的求解?
    最优化问题的表示形式如下:
    在这里插入图片描述

其中 γ \gamma γ 是几何间隔,转换后的优化函数中的 γ ^ \hat{\gamma} γ^ 是函数间隔。
:假设当 γ ^ = 1 \hat{\gamma}=1 γ^=1时, w = w i , b = b i w=w_i,b=b_i w=wi,b=bi。那么任何其他 γ \gamma γ 的取值都可以使用 λ ⋅ γ ^ \lambda\cdot\hat{\gamma} λγ^表示,由于函数间隔的性质,我们可以算出此时的 w , b w,b w,b分别为 λ w i \lambda w_i λwi λ b i \lambda b_i λbi。然后我们将任意数 λ ⋅ γ ^ \lambda\cdot\hat{\gamma} λγ^ λ w i \lambda w_i λwi λ b i \lambda b_i λbi带入上面的目标函数和约束函数中,发现无论 λ \lambda λ 等于几,都会被抵消,无法影响上列优化函数的解。综上,我们完全可以直接将 γ ^ \hat{\gamma} γ^ 设置为 1 。得到下面目标函数: m a x 1 ∣ ∣ w ∣ ∣ 2 max \frac{1}{||w||_2} maxw21
然后由于 1 ∣ ∣ w 2 ∣ ∣ \frac{1}{||w_2||} w21 1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||_2 21w2 等价。因此,最终的目标函数可以化为下面形式:

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值