一、 数据集的线性可分性
定义:给定一个数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中,
x
i
∈
χ
=
R
n
x_i\in \chi=R^n
xi∈χ=Rn,
y
i
∈
γ
=
{
+
1
,
−
1
}
,
i
=
1
,
2
,
.
.
.
,
N
y_i\in \gamma =\{+1,-1\},i=1, 2,...,N
yi∈γ={+1,−1},i=1,2,...,N,如果存在某个超平面S
w
⋅
x
+
b
=
0
w·x+b=0
w⋅x+b=0
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有
y
i
=
+
1
y_i=+1
yi=+1的实例i,有
w
⋅
x
i
+
b
>
0
w·x_i+b>0
w⋅xi+b>0,对所有
y
i
=
−
1
y_i=-1
yi=−1的实例i,有
w
⋅
x
i
+
b
<
0
w·x_i + b<0
w⋅xi+b<0,则称数据集T为线性可分数据集(linearly separable data set);否则,称数据集T线性不可分。
二、 感知机学习策略
假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面,即确定感知机模型参数 w , b w,b w,b,需要确定一个学习策略,即定义(经验)损失函数并将损失函数最小化。
损失函数的一个自然选择是误分类点的总数。但是,这样的损失函数不是参数 w , b w,b w,b的连续可导函数,不易优化。因此,感知机采用的损失函数是误分类点到超平面S的总距离。
首先写出输入空间
R
n
R^n
Rn中任一点
x
0
x_0
x0到超平面S的距离:
1
∣
∣
w
∣
∣
∣
w
⋅
x
0
+
b
∣
\frac{1}{||w||}|w·x_0+b|
∣∣w∣∣1∣w⋅x0+b∣
这里, ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣是w的 L 2 L_2 L2范数。
其次,对于误分类的数据
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)来说,
−
y
i
(
w
⋅
x
i
+
b
)
>
0
-y_i(w·x_i+b)>0
−yi(w⋅xi+b)>0
成立,因为当
w
⋅
x
i
+
b
>
0
w·x_i+b>0
w⋅xi+b>0时,
y
i
=
−
1
y_i=-1
yi=−1,而当
w
⋅
x
i
+
b
<
0
w·x_i+b<0
w⋅xi+b<0时,
y
i
=
+
1
y_i=+1
yi=+1。因此,误分类点
x
i
x_i
xi到超平面S的距离是
−
1
∣
∣
w
∣
∣
y
i
(
w
⋅
x
i
+
b
)
-\frac{1}{||w||}y_i(w·x_i+b)
−∣∣w∣∣1yi(w⋅xi+b)
这样,假设超平面
S
S
S的误分类点集合为M,那么所有误分类点到超平面S的距离是
−
1
∣
∣
w
∣
∣
∑
x
i
∈
M
y
i
(
w
⋅
x
i
+
b
)
-\frac{1}{||w||}\sum_{x_i\in M}y_i(w·x_i+b)
−∣∣w∣∣1xi∈M∑yi(w⋅xi+b)
不考虑
1
∣
∣
w
∣
∣
\frac{1}{||w||}
∣∣w∣∣1,就得到感知机学习的损失函数。
给定训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中,
x
i
∈
χ
=
R
n
,
y
∈
γ
=
{
+
1
,
−
1
}
,
i
=
1
,
2
,
.
.
.
,
N
x_i\in \chi=R^n,y\in \gamma=\{+1,-1\}, \space i=1,2,...,N
xi∈χ=Rn,y∈γ={+1,−1}, i=1,2,...,N。感知机
s
i
g
n
(
w
⋅
x
+
b
)
sign(w·x+b)
sign(w⋅x+b)学习的损失函数定义为
L
(
w
,
b
)
=
−
∑
x
i
∈
M
y
i
(
w
⋅
x
i
+
b
)
(2)
L(w,b)=-\sum_{x_i\in M}y_i(w·x_i+b) \tag{2}
L(w,b)=−xi∈M∑yi(w⋅xi+b)(2)
其中M为误分类点的集合。这个损失函数就是感知机学习的经验风险函数。
显然,损失函数 L ( w , b ) L(w,b) L(w,b)是非负的。如果没有误分类点,损失函数值时0。而且,误分类点越少,误分类点离超平面月近,损失函数值就越小。一个特定样本点的损失函数:在误分类时是参数 w , b w,b w,b的线性函数,在正确分类是0.因此,给定训练数据集T,损失函数 L ( w , b ) L(w,b) L(w,b)是 w , b w,b w,b的连续可导函数。
感知机学习的策略:在假设空间中选取使损失函数(2)最小的模型参数 w , b w,b w,b,即感知机模型。