R笔记之基础建模技术

最新推荐文章于 2024-03-05 16:09:12 发布

鲁鲁酱1996

最新推荐文章于 2024-03-05 16:09:12 发布

阅读量263

点赞数

分类专栏：机器学习之R语言基础文章标签：数据技术

本文链接：https://blog.csdn.net/lulujiang1996/article/details/79048847

版权

机器学习之R语言基础专栏收录该内容

23 篇文章 13 订阅

订阅专栏

1.有监督和无监督
2.误差极其来源
（1）系统误差和随机误差
（2）因变量误差
（3）自变量误差
3.数据划分和再抽样
数据划分：将一部分数据预留出来用于模型测试，只用另外的部分数据进行模型训练。
再抽样：重复从数据集中抽取样本并且在不同样本上拟合模型
，以此得到关于拟合模型的信息。
为什么要对数据进行划分和再抽样？
为了避免过度拟合。
过程：
（1）将样本划分成训练集合测试集
（2）使用训练集拟合模型
（3）将拟合模型用于测试集，评估模型表现
数据划分方法：
（1）按照结果变量划分数据
（2）按照预测变量划分数据
（3）按照实际序列划分数据
再抽样方法：bootstrp和交互校验
4.划分训练集合测试集
为什么要划分训练集？
数据科学家要解决预测问题，从预测模型中得到相应指导决策的推断。
多少比例的数据用于训练集？
通常需要考虑两个因素
（1）样本量
（2）计算速度
建议（60%，70%，80%这三个比例）
具体如何划分？
（1）按照结果变量划分数据
（2）按照自变量划分
（3）按时间序列划分
划分缺陷：
1.由于训练集合测试集划分是随机的，重复这一过程误差会有波动
2.由于训练集中只包含原始观测的一个子集，拟合模型使用的是部分数据。这意味着该过程可能过度估计模型误差。
重抽样：
目的：
（1）对于有调优参数的模型，能够找到优化该度量的调优参数
（2）对于不含有调优参数模型，可以通过重抽样考察模型拟合结果的稳定性，也可以用于检验模型在和训练集无关的样本上的表现。
重抽样方法：（详解会有单独篇章介绍）
（1）K折交叉验证
（2）Bootstrap方法

鲁鲁酱1996

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
R笔记之基础建模技术

1.有监督和无监督 2.误差极其来源（1）系统误差和随机误差（2）因变量误差（3）自变量误差 3.数据划分和再抽样数据划分：将一部分数据预留出来用于模型测试，只用另外的部分数据进行模型训练。再抽样：重复从数据集中抽取样本并且在不同样本上拟合模型，以此得到关于拟合模型的信息。为什么要对数据进行划分和再抽样？为了避免过度拟合。
复制链接

扫一扫