机器学习笔记 - 评估方法

最新推荐文章于 2022-11-20 13:39:34 发布

volvet

最新推荐文章于 2022-11-20 13:39:34 发布

阅读量432

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/volvet/article/details/54879675

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

数据集 $D$ = $\{ (x_1, y_1), (x_2, y_2), ... , (x_m, y_m) \}$ , 一共 $m$ 个样本. 可以对 $D$ 进行适当处理, 从中产生训练集 $S$ 和测试集 $T$ . 下面介绍几种常见的做法.

Hold Out

将数据集 $D$ 划分为两个互斥的集合，其中一个作为训练集 $S$ , 另一个作为测试集T, 即 $D=S \cup T$ , $S \cap T= \emptyset$ . 训练集和测试集的划分要尽量保持数据分布的一致性，至少要保证样本的类别比例相似。另一个需要注意的问题是，在给定测试/训练集比例后，仍然存在多种划分方式对数据集 $D$ 进行分割，不同的划分方式将导致不同的模型评估结果，所以在使用Hold Out方法时，一般要采用若干次随机划分，重复实验评估后取平均值作为评估结果。

Cross Validation

将数据集 $D$ 划分为 k 个大小相似的互斥子集, 即 $D=D_1 \cup D_2 \cup ... \cup D_k$ , $D_1 \cap D_2 \cap ... \cap D_k= \emptyset$ , 然后，每次用 $k-1$ 个子集的并集作为训练集，余下的那个子集作为测试集，这样可以获得 $k$ 组训练集和测试集，从而进行 $k$ 次训练和测试，最终返回 $k$ 个测试结果的均值。
跟Hold Out 方法类似，将数据集 $D$ 划分为 $k$ 个子集也存在多种方式，为减少因样本划分引入的差异， $k$ 次Cross Validation 通常要随机使用不同的划分重复 $p$ 次。常见的有10次10折Cross Validation.

Bootstrapping

给定 $m$ 个样本的数据集 $D$ , 对其进行采样，每次随机挑选一个样本，复制后将其放回，这样重复 $m$ 次，可以得到包含 $m$ 个样本的测试集 $S$ , 显然， $D$ 中会有一部分样本在 $S$ 中多次出现，而有另一部分则不出现，而样本在 $m$ 次采样中部出现的概率为 $p = (1-\frac{1}{m})^m$ .

lim m \to \infty (1 - 1 m) m \to 1 e ≃ 0.368

$\lim_{m\to\infty}(1-\frac{1}{m})^m \to \frac{1}{e}\simeq0.368$
于是我们可以定义

T=D∖S $T=D \setminus S$ , 这样可以进行训练和测试。

Reference

机器学习 - 周志华，清华大学出版社

volvet

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记 - 评估方法

数据集 DD = {(x1,y1),(x2,y2),...,(xm,ym)}\{ (x_1, y_1), (x_2, y_2), ... , (x_m, y_m) \}, 一共mm个样本. 可以对DD 进行适当处理, 从中产生训练集SS和测试集TT. 下面介绍几种常见的做法.Hold Out将数据集 DD 划分为两个互斥的集合，其中一个作为训练集SS, 另一个作为测试集T, 即 D=S∪TD=
复制链接

扫一扫

专栏目录