1.有监督和无监督
2.误差极其来源
(1)系统误差和随机误差
(2) 因变量误差
(3) 自变量误差
3.数据划分和再抽样
数据划分:将一部分数据预留出来用于模型测试,只用另外的部分数据进行模型训练。
再抽样:重复从数据集中抽取样本并且在不同样本上拟合模型
,以此得到关于拟合模型的信息。
为什么要对数据进行划分和再抽样?
为了避免过度拟合。
过程:
(1)将样本划分成训练集合测试集
(2)使用训练集拟合模型
(3)将拟合模型用于测试集,评估模型表现
数据划分方法:
(1)按照结果变量划分数据
(2)按照预测变量划分数据
(3)按照实际序列划分数据
再抽样方法:bootstrp和交互校验
4.划分训练集合测试集
为什么要划分训练集?
数据科学家要解决预测问题,从预测模型中得到相应指导决策的推断。
多少比例的数据用于训练集?
通常需要考虑两个因素
(1)样本量
(2)计算速度
建议(60%,70%,80%这三个比例)
具体如何划分?
(1)按照结果变量划分数据
(2)按照自变量划分
(3)按时间序列划分
划分缺陷:
1.由于训练集合测试集划分是随机的,重复这一过程误差会有波动
2.由于训练集中只包含原始观测的一个子集,拟合模型使用的是部分数据。这意味着该过程可能过度估计模型误差。
重抽样:
目的:
(1)对于有调优参数的模型,能够找到优化该度量的调优参数
(2)对于不含有调优参数 模型,可以通过重抽样考察模型拟合结果的稳定性,也可以用于检验模型在和训练集无关的样本上的表现。
重抽样方法:(详解会有单独篇章介绍)
(1)K折交叉验证
(2)Bootstrap方法
R笔记之基础建模技术
最新推荐文章于 2024-03-05 16:09:12 发布