分割数据集R实现（spliting dataset）

最新推荐文章于 2024-04-29 12:14:45 发布

一个人旅行*-*

最新推荐文章于 2024-04-29 12:14:45 发布

阅读量7k

点赞数 3

分类专栏： R语言

本文链接：https://blog.csdn.net/qq_42458954/article/details/109247847

版权

R语言专栏收录该内容

116 篇文章

订阅专栏

本文介绍了在R语言中如何将数据集划分为训练集和测试集，包括使用caTools包的sample.split函数，caret包的createDataPartition函数，直接使用sample函数，以及自定义函数create_train_test。这些方法有助于在机器学习模型训练中确保数据的合理分配，提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方法一：caTools包，sample.split函数

# Splitting the dataset into the Training set and Test set 
install.packages('caTools') 
library(caTools) 
  
set.seed(123) 
split = sample.split(dataset$Purchased, SplitRatio = 0.75) 
  
training_set = subset(dataset, split == TRUE) 
test_set = subset(dataset, split == FALSE)

方法二：caret包，createDataPartition函数

library(caret)
Train <- createDataPartition(data$Obesity, p=0.6, list=FALSE)
training <- data[ Train, ]
testing <- data[ -Train, ]

方法三：sample函数

ind=sample(nrow(data),nrow(data)*4/5)
training<-data[ind,]
testing<-data[-ind,]

方法四：自写函数

create_train_test <- function(data, size = 0.8, train = TRUE) {
    n_row = nrow(data)
    total_row = size * n_row
    train_sample < - 1: total_row
    if (train == TRUE) {
        return (data[train_sample, ])
    } else {
        return (data[-train_sample, ])
    }
}

#Code Explanation
#function(data, size=0.8, train = TRUE): Add the arguments in the function
#n_row = nrow(data): Count number of rows in the dataset
#total_row = size*n_row: Return the nth row to construct the train set
#train_sample <- 1:total_row: Select the first row to the nth rows
#if (train ==TRUE){ } else { }: If condition sets to true, return the train set, else the test set.