前言
我们在上篇博文 《机器学习模型的容量,过拟合与欠拟合》 中曾经提到过模型的泛化问题,指的就是描述一个模型在未见过的数据中的表现能力。这里再提出了,用于比较经验误差。
联系方式:
e-mail: FesianXu@163.com
QQ: 973926198
github: https://github.com/FesianXu
假设我们现在有数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
i
,
y
i
)
}
,
i
=
N
D=\{(x_1,y_1), (x_2,y_2),\cdots,(x_i,y_i)\}, i=N
D={(x1,y1),(x2,y2),⋯,(xi,yi)},i=N,其中
N
N
N是数据集的大小,
x
i
x_i
xi为数据的属性1,
y
i
y_i
yi为标签。假设有
y
i
∈
Y
y_i \in \mathcal{Y}
yi∈Y,
x
i
∈
X
,
i
=
1
,
2
,
⋯
,
N
x_i \in \mathcal{X}, \rm i =1,2,\cdots,N
xi∈X,i=1,2,⋯,N,假设
X
\mathcal{X}
X中的所有样本都满足一个隐含的,未知的分布
D
\mathcal{D}
D,也就是说
D
D
D中的所有样本都是从
D
\mathcal{D}
D中独立同分布(i.i.d) 地采样的。
然后假设
h
h
h是算法
L
\mathcal{L}
L学习到的从
X
\mathcal{X}
X到
Y
\mathcal{Y}
Y的映射,
y
=
h
(
x
)
y=h(x)
y=h(x),并且有
h
∈
H
h \in\mathcal{H}
h∈H,其中
H
\mathcal{H}
H为算法
L
\mathcal{L}
L的假设空间。我们可以定义映射
h
h
h 的 泛化误差(generalization error):
E
(
h
;
D
)
=
P
x
∼
D
(
h
(
x
)
≠
y
)
(1.1)
E(h; \mathcal{D}) = \rm P_{x \sim \mathcal{D}} \rm(h(x) \neq y) \tag{1.1}
E(h;D)=Px∼D(h(x)=y)(1.1)
因为我们无法观察到整个分布
D
\mathcal{D}
D,只能观察到独立同分布采样后的
D
D
D,因此我们需要定义 经验误差(empirical error):
E
^
(
h
;
D
)
=
1
N
∑
i
=
1
N
1
(
h
(
x
i
)
≠
y
i
)
,
x
i
∈
D
(1.2)
\hat E(h;\mathcal{D}) = \rm \frac{1}{N} \sum_{i=1}^N 1(h(x_i) \neq y_i),x_i \in D \tag{1.2}
E^(h;D)=N1i=1∑N1(h(xi)=yi),xi∈D(1.2)
其中的
1
(
⋅
)
1(\cdot)
1(⋅)表示当条件符合时输出1,否则输出0。由于
D
D
D是
D
\mathcal{D}
D的独立同分布采样,因此
h
h
h的经验误差的期望等于泛化误差。
引用:
数据的属性指的是数据的最原始的特征,比如图片的原始像素点,而数据的特征大多指的是属性经过特定的操作的数据,如图片的像素点经过CNN卷积之后得到的特征。广义来说,数据的属性和特征没有区别。 ↩︎