本节为吴恩达教授机器学习课程笔记第八部分,讲义标题感知器与大间隔分类器,实际上该部分只讲了在线学习的感知器算法错分类的次数上界及其证明,也是学习理论的一部分。
本节主要考虑在线学习的问题,即算法在进行预测的同时也在不断进行学习。假定按顺序给出的一系列样本
(
x
(
1
)
,
y
(
1
)
)
,
(
x
(
2
)
,
y
(
2
)
)
,
.
.
.
.
,
(
x
(
m
)
,
y
(
m
)
)
(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),....,(x^{(m)},y^{(m)})
(x(1),y(1)),(x(2),y(2)),....,(x(m),y(m)),算法首先接收
x
(
1
)
x^{(1)}
x(1),然后预测它认为的
y
(
1
)
y^{(1)}
y(1),之后把
y
(
1
)
y^{(1)}
y(1)的真实值输入算法,算法可以利用这个信息进行学习,之后算法输入
x
(
2
)
x^{(2)}
x(2),重复上面的过程直至所有样本都输入完。我们将重点关注这个在线学习的过程中算法累计的误差,下面的讨论将给出感知器算法的在线学习的误差边界。
为了简化问题讨论,我们假定类别标签
y
=
∈
{
−
1
,
1
}
y = \in \{-1,1\}
y=∈{−1,1},对于感知器算法,有:
其中:
给定训练样本
(
x
,
y
)
(x,y)
(x,y),感知器学习规则按如下的方式更新参数:如果
h
θ
(
x
)
=
y
h_{\theta}(x)=y
hθ(x)=y,那么无需更新;否则:
下面的定理就给出了感知器算法在线学习的误差边界,注意这个界和样本的数量
m
m
m以及特征的维度
n
n
n是没有关系的:
下面对这个定理进行证明,感知器仅对于错分样本更新权重,假定
θ
(
k
)
\theta^{(k)}
θ(k)是第k次错分时的权重,有
θ
(
1
)
=
0
→
\theta^{(1)}=\overrightarrow 0
θ(1)=0,如果第
k
k
k次错分是在样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i))上发生的,那么:
就表明:
根据感知器学习法则,我们有
θ
(
k
+
1
)
=
θ
(
k
)
+
y
(
i
)
x
(
i
)
\theta^{(k+1)}=\theta^{(k)}+y^{(i)}x^{(i)}
θ(k+1)=θ(k)+y(i)x(i),则:
通过简单归纳,有:
同时有:
简单的归纳有:
综合来看,即:
证得:
也就是说在线学习的感知器算法在定理给定的数据集上工作,那么错分类的次数必然有一个和样本数量与特征维数无关的上界。
欢迎扫描二维码关注微信公众号 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]