基于多个向量生成仿真 DataFrame 数据(使用 R 语言)
在数据分析和机器学习中,我们经常需要生成仿真数据来测试算法、进行模型训练或进行数据可视化。本文将介绍如何使用 R 语言基于多个向量生成仿真 DataFrame 数据。
在开始之前,我们需要确保已经安装了 R 语言和相关的依赖包。我们将使用以下库来生成和操作数据:
# 安装所需的包
install.packages("dplyr")
install.packages("tidyr")
# 加载所需的包
library(dplyr)
library(tidyr)
假设我们有三个向量:age
、gender
和 income
,分别表示个体的年龄、性别和收入。我们将使用这些向量生成一个包含 1000 行数据的仿真 DataFrame。
首先,让我们创建这些向量:
# 设置随机数种子,以确保结果可重复
set.seed(123)
# 生成 age 向量(范围在 18 到 65 之间)
age <- sample(18:65, 1000, replace = TRUE)
# 生成 gender 向量(取值为 "Male" 或 "Female&#