R实现数据抽样

训练集与测试集
     x为输入变量,y为输出变量。利用训练集中的x,y建立模型。

将测试集中的x带入模型,来预测测试集目标输出变量y的值,设为y’,将训练集的x带入模型,来预测训练集目标输出变量y的值,设为y’’。那么y’’与y的误差评价了模型的拟合程度,即自己对自己的契合程度;而y’与y的误差则评价了模型的推广程度,即与别人的契合程度。当我们说一个模型相对较好时,往往指该模型的拟合程度和推广程度综合最优。
用到的软件包及函数:

软件包 函数 函数意义
base(无需加载,默认含有) sample() 简单随机抽样
Sampling(需下载) stratr() 分层抽样
Sampling(需下载) cluster() 整群抽样
简单随机抽样

常选取70%的客户(数据)用于调研(建模),剩下30%用来测试。
用set.seed()这个函数设置随机种子,随机数的产生需要有一个随机的种子,因为用计算机产生的随机数是通过递推的方法得来的,必须有一个初始值。用同一台电脑,且在初始值和递推方法相同的情况下,可以产生相同的随机序列。 set.seed(100), set.seed(100), set.seed(33),前两组产生的样本相同。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值