感知机学习策略(统计学习方法)之二

给定一个数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T = \left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \} T={(x1,y1),(x2,y2),...,(xN,yN)}其中, x i ∈ X = R n x_i \in X= {R}^n xiX=Rn y i ∈ Y = { + 1 , − 1 } y_i \in Y= \mathbb{\{+1,-1}\} yiY={+1,1} i = 1 , 2 , . . . , N i=1,2,...,N i=1,2,...,N,如果存在某个超平面 S S S,可以将数据集划分为:对所有 y i = + 1 y_i = +1 yi=+1的实例 x i x_i xi,有 w ⋅ x > 0 w\cdot x > 0 wx>0;对所有 y i = − 1 y_i = -1 yi=1的实例 x i x_i xi,有 w ⋅ x > 0 w\cdot x > 0 wx>0,那么我们就说这个数据集 T T T是线性可分的,在下述中我们均在数据集 T T T线性可分的假设下讨论。

学习策略

为求得这个可以准确划分正、负实例的超平面 S : w ⋅ x = 0 S:w\cdot x = 0 S:wx=0,我们需要确定模型参数 w w w b b b,因此,需要确定一个学习策略,即定义一个经验损失函数并将其最小化。
在感知机模型中选用的损失函数定为:误分类点到超平面 S S S的距离的总和。
首先,我们复习一下点到直线的距离公式:
d = ∣ A x 0 + B y 0 + C A 2 + B 2 ∣ d=\left|\frac{A x_{0}+B y_{0}+C}{\sqrt{A^{2}+B^{2}}}\right| d=A2+B2 Ax0+By0+C由此,输入空间 R n {R}^n Rn中任一点 x 0 x_0 x0到超平面 S S S的距离为:
1 ∥ w ∥ ∣ w ⋅ x 0 + b ∣ 1 \frac{1}{\|w\|}\left|w \cdot x_{0}+b\right|\qquad 1 w1wx0+b1 ∣ ∣ w ∣ ∣ ||w|| w为向量 w w w L 2 L_2 L2范数,即 w 1 2 + w 2 2 + . . . + w N 2 \sqrt{w_1^2+w_2^2+...+w_N^2} w12+w22+...+wN2
对于误分类的数据 ( x i , y i ) (x_i,y_i) (xi,yi)来说有:
− y i ( w ⋅ x i + b ) > 0 2 -y_i(w\cdot x_i + b) > 0 \qquad 2 yi(wxi+b)>02恒成立。
因为当 w ⋅ x > 0 w\cdot x > 0 wx>0时, y i = − 1 y_i = -1 yi=1;当 w ⋅ x < 0 w\cdot x < 0 wx<0时, y i = + 1 y_i = +1 yi=+1。因此,任意误分类点 x i x_i xi到超平面 S S S的距离为:
− 1 ∥ w ∥ y i ( w ⋅ x i + b ) 3 -\frac{1}{\|w\|}y_i\left(w \cdot x_{i}+b\right) \qquad 3 w1yi(wxi+b)3(注:为什么距离从上式 1 1 1的绝对值变成了本式的 − y i ∗ ( . . . ) -y_i * (...) yi(...)?
我的理解为:这样操作不会改变表达式的值,但却能去掉绝对值,使得损失函数具有更好的数学性质,如可导性等)
此时,假设超平面 S S S的误分类点集合为 M M M,那么所有的误分类点到超平面 S S S的距离总和为:
− 1 ∥ w ∥ ∑ x i ∈ M y i ( w ⋅ x i + b ) -\frac{1}{\|w\|} \sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right) w1xiMyi(wxi+b)不考虑 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} w1的话,就得到了感知机模型的损失函数。
L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) L(w, b)=-\sum_{x_{i} \in M} y_{i}\left(w \cdot x_{i}+b\right) L(w,b)=xiMyi(wxi+b)由式 2 2 2知,损失函数 L ( w , b ) L(w, b) L(w,b)是非负的。
下一章:感知机原始形式算法与python实现

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值