R语言将数据拆分为测试集和_R语言:数据集划分为训练集和测试集?

原文链接:

R Tip:数据集划分为训练集和测试集?-数据人网​www.shujuren.org
5c2470e8f45ef8782c6a50bfbe721bfd.png
问题背景:我们构建数据模型的时候,需要把数据集划分为训练集和测试集,训练集用来训练模型,测试集用来测试模型的泛化能力。本文总结R语言如何把数据集划分为训练集和测试集?

解决方案

结合实际工作,罗列4中解决方案。

1 使用smaple()函数

代码片段如下:

data <- read.csv("raw_data/data.csv")
set.seed(20180808)
index <-  sort(sample(nrow(data), nrow(data)*.7))
train <- data[index,]
test <-  data[-index,]

2 使用caret包

代码片段如下:

library(caret)
data <- read.csv("raw_data/data.csv")
set.seed(20180808)
index <- createDataPartition(
  data$y,
  p = 0.7,
  list = FALSE
)
train <- data[index, ]
test <- data[-index, ]

3 使用caTools包

代码片段如下:

library(caTools)
data <- read.csv("raw_data/data.csv")

set.seed(20180808)
index  <-  sample.split(data$y,SplitRatio = 0.3)
train <- subset(data, index == TRUE)
test <- subset(data, index == FALSE)

4 使用scorecard包

代码片段如下:

library(scorecard)
data <- read.csv("raw_data/data.csv")
set.seed(20180808)
data_list <- split_df(data, ratio = 0.7)
train <- data_list$train
test <- data_list$test
  • 13
    点赞
  • 118
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值