R笔记之基础建模技术

1.有监督和无监督
2.误差极其来源
(1)系统误差和随机误差
(2) 因变量误差
(3) 自变量误差
3.数据划分和再抽样
数据划分:将一部分数据预留出来用于模型测试,只用另外的部分数据进行模型训练。
再抽样:重复从数据集中抽取样本并且在不同样本上拟合模型
,以此得到关于拟合模型的信息。
为什么要对数据进行划分和再抽样?
为了避免过度拟合。
过程:
(1)将样本划分成训练集合测试集
(2)使用训练集拟合模型
(3)将拟合模型用于测试集,评估模型表现
数据划分方法:
(1)按照结果变量划分数据
(2)按照预测变量划分数据
(3)按照实际序列划分数据
再抽样方法:bootstrp和交互校验
4.划分训练集合测试集
为什么要划分训练集?
数据科学家要解决预测问题,从预测模型中得到相应指导决策的推断。
多少比例的数据用于训练集?
通常需要考虑两个因素
(1)样本量
(2)计算速度
建议(60%,70%,80%这三个比例)
具体如何划分?
(1)按照结果变量划分数据
(2)按照自变量划分
(3)按时间序列划分
划分缺陷:
1.由于训练集合测试集划分是随机的,重复这一过程误差会有波动
2.由于训练集中只包含原始观测的一个子集,拟合模型使用的是部分数据。这意味着该过程可能过度估计模型误差。
重抽样:
目的:
(1)对于有调优参数的模型,能够找到优化该度量的调优参数
(2)对于不含有调优参数 模型,可以通过重抽样考察模型拟合结果的稳定性,也可以用于检验模型在和训练集无关的样本上的表现。
重抽样方法:(详解会有单独篇章介绍)
(1)K折交叉验证
(2)Bootstrap方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值