R实现数据抽样

最新推荐文章于 2023-03-02 00:09:30 发布

华仔宝宝

最新推荐文章于 2023-03-02 00:09:30 发布

阅读量1k

点赞数 1

分类专栏： R与数据分析文章标签： r语言

本文链接：https://blog.csdn.net/hua_chang/article/details/105036555

版权

训练集与测试集

     x为输入变量，y为输出变量。利用训练集中的x,y建立模型。

将测试集中的x带入模型，来预测测试集目标输出变量y的值，设为y’，将训练集的x带入模型，来预测训练集目标输出变量y的值，设为y’’。那么y’’与y的误差评价了模型的拟合程度，即自己对自己的契合程度；而y’与y的误差则评价了模型的推广程度，即与别人的契合程度。当我们说一个模型相对较好时，往往指该模型的拟合程度和推广程度综合最优。
用到的软件包及函数：

软件包	函数	函数意义
base(无需加载，默认含有)	sample()	简单随机抽样
Sampling(需下载)	stratr()	分层抽样
Sampling(需下载)	cluster()	整群抽样

简单随机抽样

常选取70%的客户（数据）用于调研（建模），剩下30%用来测试。
用set.seed()这个函数设置随机种子，随机数的产生需要有一个随机的种子，因为用计算机产生的随机数是通过递推的方法得来的，必须有一个初始值。用同一台电脑，且在初始值和递推方法相同的情况下，可以产生相同的随机序列。 set.seed(100)， set.seed(100)， set.seed(33)，前两组产生的样本相同。

最低0.47元/天解锁文章

华仔宝宝

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
R实现数据抽样

训练集与测试集 x为输入变量，y为输出变量。利用训练集中的x,y建立模型。将测试集中的x带入模型，来预测测试集目标输出变量y的值，设为y’，将训练集的x带入模型，来预测训练集目标输出变量y的值，设为y’’。那么y’’与y的误差评价了模型的拟合程度，即自己对自己的契合程度；而y’与y的误差则评价了模型的推广程度，即与别人的契合程度。当我们说一个模型相对较好时，往往指该模型的拟合程度和推...
复制链接

扫一扫