在西瓜书的第二章,讲了几种常用的对数据集进行划分而产生训练集
S
\mathit{S}
S 和测试集
T
\mathit{T}
T 的方法,其中就有一个自助法。
自助法:其实就是通过有放回采样产生训练集,没有被采样到的作为测试集。书中描述,给定包含m个样本的数据集
D
\mathit{D}
D ,每次从
D
\mathit{D}
D 中采样一个样本,拷贝后放入
D
′
\mathit{D'}
D′ 中,采样m次,得到包含m个样本的数据集
D
′
\mathit{D'}
D′。
明显D中有一部分样本会多次出现,而另一部分样本不出现。
于是估计样本在m次采样中始终不被采到的概率
lim m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim_{m\rightarrow \infty }{\left ( 1-\frac{1}{m} \right )}^{m}\rightarrow\frac{1}{e}\approx 0.368 limm→∞(1−m1)m→e1≈0.368
这个公式不算困难,只要你记得下面两个重要的极限公式中的第二个,稍加推导就可以推导出来。
两个重要的极限公式
- lim m → 0 sin m m = 1 \lim_{m\rightarrow 0 } \frac{\sin{m}}{m} = 1 limm→0msinm=1
- lim x → 0 ( 1 + x ) 1 x = e \lim_{x\rightarrow 0 } \left ( 1+x \right )^{\frac{1}{x}} = e limx→0(1+x)x1=e
对于书上所给的公式
另
m
=
1
t
m = \frac{1}{t}
m=t1 ,那么书上的公式就转换如下:
lim
t
→
0
(
1
−
t
)
1
t
\lim_{t\rightarrow0} {\left ( 1-t \right )}^{\frac{1}{t}}
limt→0(1−t)t1
=
lim
t
→
0
(
(
1
+
(
−
t
)
)
1
−
t
)
−
1
=\lim_{t\rightarrow0}{\left ({\left ( 1+(-t) \right )}^{\frac{1}{-t}}\right )}^{-1}
=limt→0((1+(−t))−t1)−1
因为这里t趋近于0,那么-t也趋近于0,因此上式也即在-t趋近0的条件下求极限。
所以上式=
1
e
≈
0.368
\frac{1}{e}\approx0.368
e1≈0.368