2.2 评估方法

DLinson

于 2017-08-21 15:44:05 发布

阅读量298

点赞数

分类专栏：机器学习周志华

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DLinson/article/details/77450613

版权

机器学习周志华专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2　模型评估与选择－评估方法

留出法（hold-out）
交叉验证法（cross validation）
自助法（bootstrapping）
调参（parameter tuning）

3.1 留出法

将数据集 $D$ 划分为 $S, T$：

D = S \cap T, S \cup T = \emptyset

并采用**分层采样（stratified sampling）**，通常选用 $2/3 - 4/5$ 用于训练。

3.2 交叉验证法

将 $D$ 划分为 $k$ 个大小相似的互斥子集：

D = D 1 \cup D 2 \cup \dots \cup D k, D i \cap D j = \emptyset (i \neq j)

每次用 $k-1$ 个子集作为训练集，剩下一个作为测试集，称为**k折交叉验证（k-fold cross validation）**。$k$ 通常取 10，并随机使用不同划分重复 $p$ 次，最终取 $p$ 次结果均值，例如“10次10折交叉验证”。

假设数据集 $D$ 容量为 $m$，若 $k = m$，则称为**留一法（Leave-One-Out, LOO）**。留一法苹果结果比较准确，但计算开销也相应较大。

3.3 自助法

以**自助采样法（bootstrap sampling）**为基础，从 $D$ 中有放回地随机抽取 $m$ 次，得到同样包含 $m$ 个样本的 $D'$，$D$ 中有一部分样本会在 $D'$ 中出现多次，而另一部分则未出现，$m$ 次重采样始终未被采到的概率是：

lim m \to \infty (1 - 1 m) m \to 1 e \approx 0.368

即 $36.8\%$ 的样本未出现在 $D'$。以 $D'$ 作为训练集，$D - D'$ 作为测试集。自助法在数据集较小、难以划分训练/测试集时很有用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.2 评估方法

2　模型评估与选择－评估方法留出法（hold-out）交叉验证法（cross validation）自助法（bootstrapping）调参（parameter tuning）3.1 留出法将数据集 $D$ 划分为 $S, T$：D=S∩T,S∪T=∅并采用**分层采样（stratified sampling）**，通常选用 $2/3 - 4/5$ 用于
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。