Stata: 交叉验证简介

最新推荐文章于 2021-11-06 17:36:25 发布

arlionn

最新推荐文章于 2021-11-06 17:36:25 发布

阅读量6.6k

点赞数 1

分类专栏：机器学习文章标签： Stata 交叉验证

连享会 ( lianxh.cn ) 原创，转载申请：StataChina@163.com

本文链接：https://blog.csdn.net/arlionn/article/details/102811184

版权

本文详细介绍了交叉验证的概念、作用和常用方法，如K折交叉验证、留一法、留P法。通过Stata命令进行线性回归模型和二元结果模型的K折叠交叉验证，展示了其在模型评价和选择中的应用。文中提供了具体的命令语法格式和实例演示，帮助读者深入理解交叉验证在RDD分析和模型选择中的重要性。

摘要由CSDN通过智能技术生成

作者：贺旭（中央财经大学）

Stata连享会计量专题 || 精品课程 || 简书推文 || 公众号合集

连享会计量方法专题……

本文介绍交叉验证方法，然后以 kfoldclass 命令和 crossfold 为范例使读者更深入的了解该方法。

该方法在 RDD 分析中确定最优带宽时非常有用。

1 交叉验证的介绍

1.1 交叉验证的含义是什么？

交叉验证，顾名思义，就是重复的使用数据。具体来说，就是把样本数据切成 K 份，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。

1.2 交叉验证有什么作用？

第一，交叉验证可以多次的使用数据，有助于解决数据补充足的问题；

第二，交叉验证有助于防止过度拟合（模型样本内拟合的很好，样本外却很糟糕）；

第三，用交叉验证来来进行模型的评价与选择。

1.3 常用的交叉验证有哪些方法？

K 折叠交叉验证 (K-fold Cross Validation)

将所有样本分割为大小相等的 K 组，每次取其中的一份为测试集，其他的为训练集，最后根据测试结果来评价模型。

例如：将数据集粗略地分为比较均等不相交的 10 份，然后取其中的 1 份进行测试，另外的 9 份进行训练，然后求得预测误差的平均值作为最终的评价。如图：
在这里插入图片描述

留一法 (Leave One Out)

如果 K 的值为样本的个数，也就是每次取 1 个样本作为测试集，剩下的为训练集来训练模型，最后根据测试结果来评价模型。

留 P 法 (Leave P Out)

它从完整的样本集中每次取 P 个样本作为测试集，剩下的作为训练集来训练模型，最后根据测试结果来评价模型。

连享会计量方法专题……

2. 范例：运用 `crossfold` 命令对线性回归模型等模型进行K折叠交叉验证

命令 crossfold 可以对线性回归模型

最低0.47元/天解锁文章

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。