使用R语言进行数据处理，数据分析，特征工程的基础以及代码实现（以房价预测数据集为例）

筱筱西雨

已于 2023-11-27 00:39:30 修改

阅读量2.2k

点赞数 33

分类专栏： R语言文章标签： r语言数据分析 python 数据挖掘

于 2023-11-27 00:12:41 首次发布

本文链接：https://blog.csdn.net/qq_49370210/article/details/134635512

版权

R语言专栏收录该内容

3 篇文章

订阅专栏

主要内容：

一、对数据缺失值进行处理

在R语言中，处理数据缺失值是数据预处理的一个重要步骤，通常采用以下方法：
识别缺失值：在R中，缺失值通常用NA表示。你可以使用函数is.na()或complete.cases()来检测缺失值。

删除缺失值： 如果缺失值很少，你可以选择删除包含缺失值的行或列。

# 检查整个数据框中的缺失值
is.na(your_data_frame)

# 通过列查看缺失值
colSums(is.na(your_data_frame))

# 检查哪些行包含缺失值
your_data_frame[complete.cases(your_data_frame), ]

填充缺失值： 可以使用一些方法填充缺失值，比如用平均值、中位数、众数等替代缺失值。

# 用平均值填充数值型变量的缺失值
your_data_frame$Column_with_NA[is.na(your_data_frame$Column_with_NA)] <- mean(your_data_frame$Column_with_NA, na.rm = TRUE)

# 用众数填充分类变量的缺失值
your_data_frame$Category_Column[is.na(your_data_frame$Category_Column)] <- mode(your_data_frame$Category_Column, na.rm = TRUE)

插值填充： 对于连续性数据，你还可以使用插值方法来填充缺失值。

# 使用线性插值填充缺失值
library(impute)
your_data_frame$Column_with_NA <- interpolate(your_data_frame$Column_with_NA)

处理缺失值的方法取决于数据的特点和具体情况。在处理缺失值之前，建议先仔细分析数据，了解缺失值的分布和对模型的影响，然后选择最合适的方法来处理它们。

二、数据类型的转化(特征工程)

在R语言中进行数据类型的转换是特征工程中的一个重要步骤。这个过程通常包括将数据类型转换为适合模型训练的格式，处理分类变量、数值型变量以及日期时间型变量等。

下列是一些常见的数据类型转换方法：
将字符型变量转换为因子变量： 在R中，字符型的分类变量通常被转换为因子变量

# 将字符型变量转换为因子变量
your_data_frame$Categorical_Column <- as.factor(your_data_frame$Categorical_Column)

将因子变量转换为数值型变量： 在某些情况下，模型可能需要数值型的输入，你可以使用as.numeric()来将因子变量转换为数值型。

# 将因子变量转换为数值型变量
your_data_frame$Factor_Column <- as.numeric(as.character(your_data_frame$Factor_Column))

将字符型日期转换为日期时间类型：如果数据包含日期或时间，你可以使用as.Date()函数将其转换为日期时间类型。

# 将字符型日期转换为日期时间类型
your_data_frame$Date_Column <- as.Date(your_data_frame$Date_Column, format = "%Y-%m-%d")

其他类型转换： 还有一些其他转换方法，比如将数值型变量转换为分类变量、进行数值型变量的标准化/归一化等等。

# 将数值型变量转换为分类变量
your_data_frame$Numeric_Column <- as.factor(ifelse(your_data_frame$Numeric_Column > 0, "Yes", "No"))

# 对数值型变量进行标准化/归一化（比如使用z-score标准化）
your_data_frame$Numeric_Column <- scale(your_data_frame$Numeric_Column)

在进行数据类型转换时，务必谨慎处理。确保转换后的数据类型符合你建模的需求，并且在模型训练中能够正确地被识别和使用。

三、相关性分析

R语言中进行相关性分析通常包括计算变量之间的相关系数以及可视化展示相关性。
计算相关系数：

Pearson相关系数：
Pearson相关系数衡量的是两个连续型变量之间的线性相关性，取值范围在 -1 到 1 之间。值为 1 表示完全正相关，值为 -1 表示完全负相关，值为 0 表示无线性关系。

# 计算数据框中变量之间的Pearson相关系数
correlation_matrix <- cor(your_data_frame)

# 查看特定两个变量之间的Pearson相关系数
cor(your_data_frame$Variable1, your_data_frame$Variable2)

2. Spearman相关系数：
Spearman相关系数用于衡量两个变量之间的等级相关性，不要求数据呈线性关系。

# 计算数据框中变量之间的Spearman相关系数
correlation_matrix_spearman <- cor(your_data_frame, method = "spearman")

可视化相关性代码

相关矩阵热图：

# 使用corrplot库绘制相关矩阵的热图
install.packages("corrplot")
library(corrplot)
corrplot(correlation_matrix, method = "color")

2. 散点图：

# 绘制两个变量之间的散点图
plot(your_data_frame$Variable1, your_data_frame$Variable2, xlab = "Variable1", ylab = "Variable2")

四、重要性分析

在R语言中，进行特征的重要性分析通常包括使用机器学习模型来评估特征对目标变量的影响程度。
这里举使用随机森林模型和梯度提升树模型进行特征重要性分析：
随机森林模型（Random Forest）：

# 加载randomForest库
library(randomForest)

# 假设使用随机森林模型进行特征重要性分析
# your_data_frame是你的数据框，SalePrice是目标变量，.表示使用所有其他列作为特征
rf_model <- randomForest(SalePrice ~ ., data = your_data_frame)

# 查看特征的重要性
importance(rf_model)

梯度提升树模型（Gradient Boosting Tree）：

# 加载xgboost库
library(xgboost)

# 假设使用XGBoost模型进行特征重要性分析
# your_data_matrix是转换为矩阵格式的数据（不包括目标变量SalePrice）
dtrain <- xgb.DMatrix(data = as.matrix(your_data_matrix), label = your_data_frame$SalePrice)

# 设置模型参数
params <- list(objective = "reg:squarederror", eval_metric = "rmse")

# 训练XGBoost模型
xgb_model <- xgb.train(params = params, data = dtrain, nrounds = 100)

# 查看特征的重要性
xgb.importance(model = xgb_model)

在次展示了如何使用随机森林和梯度提升树模型来评估特征的重要性。可以根据数据和具体的任务选择合适的模型进行特征重要性分析，这有助于识别和理解数据中最具影响力的特征。

数据选择：

这里的数据选择波斯顿房价

在这里插入图片描述
数据格式如上

一、对房价数据缺失值进行处理
读取数据

# 读取训练数据和测试数据
train_data <- read.csv("train_data.csv")
test_data <- read.csv("test_data.csv")

检查数据中的缺失值：

# 检查训练数据和测试数据中的缺失值
colSums(is.na(train_data))
colSums(is.na(test_data))

根据缺失值情况，你可以选择不同的方法来处理缺失值。以下是一些常见的处理方法：

**删除缺失值：**如果缺失值数量很少，可以考虑删除包含缺失值的行或列。

# 删除训练数据和测试数据中包含缺失值的行
train_data <- train_data[complete.cases(train_data), ]
test_data <- test_data[complete.cases(test_data), ]

**填充缺失值：**使用均值、中位数、众数或其他合适的值来填充缺失值。

# 用均值填充训练数据中的缺失值
train_data$LotFrontage[is.na(train_data$LotFrontage)] <- mean(train_data$LotFrontage, na.rm = TRUE)

# 用中位数填充测试数据中的缺失值
test_data$LotFrontage[is.na(test_data$LotFrontage)] <- median(test_data$LotFrontage, na.rm = TRUE)

分类变量的缺失值处理：对于分类变量，可以使用众数或特殊值（如 “NA”）来填充缺失值。

# 用众数填充训练数据和测试数据中的分类变量的缺失值
train_data$Alley[is.na(train_data$Alley)] <- "NA"
test_data$Alley[is.na(test_data$Alley)] <- "NA"

总代码：

# 读取训练数据和测试数据
train_data <- read.csv("train_data.csv")
test_data <- read.csv("test_data.csv")
# 检查训练数据和测试数据中的缺失值
colSums(is.na(train_data))
colSums(is.na(test_data))
# 删除训练数据和测试数据中包含缺失值的行
train_data <- train_data[complete.cases(train_data), ]
test_data <- test_data[complete.cases(test_data), ]
# 用均值填充训练数据中的缺失值
train_data$LotFrontage[is.na(train_data$LotFrontage)] <- mean(train_data$LotFrontage, na.rm = TRUE)

# 用中位数填充测试数据中的缺失值
test_data$LotFrontage[is.na(test_data$LotFrontage)] <- median(test_data$LotFrontage, na.rm = TRUE)
# 用众数填充训练数据和测试数据中的分类变量的缺失值
train_data$Alley[is.na(train_data$Alley)] <- "NA"
test_data$Alley[is.na(test_data$Alley)] <- "NA"

二、对房价数据缺失值进行数据类型的转化(特征工程**

转换因子变量： 在R中，一些列可能被识别为字符型，但是在实际情况下应该被转换为因子变量（categorical variables）。

# 将字符型列转换为因子变量（假设这些列应该是分类变量）
train_data$MSSubClass <- as.factor(train_data$MSSubClass)
train_data$MSZoning <- as.factor(train_data$MSZoning)
# ... （对其他列进行相似的转换）

test_data$MSSubClass <- as.factor(test_data$MSSubClass)
test_data$MSZoning <- as.factor(test_data$MSZoning)
# ... （对测试数据中的其他列进行相似的转换）


**数值型数据转换：** 确保数值型数据的正确类型，有时读入的数值型数据可能被识别为字符型，需要进行转换。

```python
**# 将字符型转换为数值型（假设列应该是数值型）
train_data$LotFrontage <- as.numeric(train_data$LotFrontage)
train_data$LotArea <- as.numeric(train_data$LotArea)
# ... （对其他列进行相似的转换）

test_data$LotFrontage <- as.numeric(test_data$LotFrontage)
test_data$LotArea <- as.numeric(test_data$LotArea)
# ... （对测试数据中的其他列进行相似的转换）
**

日期/时间类型转换： 如果数据中包含日期或时间，你可能需要将其转换为日期/时间类型以便后续处理。这个数据集并没有，但是这里还是放出假设代码

# 假设有一个列名为 "Date" 包含日期信息
train_data$Date <- as.Date(train_data$Date, format = "%Y-%m-%d")
# ... （对其他列进行相似的转换）

test_data$Date <- as.Date(test_data$Date, format = "%Y-%m-%d")
# ... （对测试数据中的其他列进行相似的转换）

创建新的特征： 根据数据的特点，你可以创建新的特征来提升模型的性能。

# 举例：计算面积
train_data$TotalArea <- train_data$LotArea + train_data$LotFrontage
# ... （根据需要进行其他新特征的创建）

test_data$TotalArea <- test_data$LotArea + test_data$LotFrontage
# ... （对测试数据中的其他列进行相似的操作）

房价数据标准化：

# 使用 scale 函数进行 Z-score 标准化
train_data$Numeric_Column <- scale(train_data$Numeric_Column)
#Numeric_Column为想标准化的列

# 使用 apply 函数进行 Min-Max 归一化
train_data_frame$Numeric_Column <- apply(train_data_frame$Numeric_Column, 2, function(x) (x - min(x)) / (max(x) - min(x)))

三、对房价数据进行相关性分析

相关矩阵： 使用cor()函数可以计算特征之间的相关系数，并通过相关矩阵或热图的方式来展示特征之间的相关性。

# 计算训练数据中特征的相关矩阵
correlation_matrix <- cor(train_data)

# 可视化相关矩阵为热图
library(corrplot)
corrplot(correlation_matrix, method = "color")

散点图： 通过散点图可以直观地观察两个变量之间的关系。

# 绘制两个变量之间的散点图
plot(train_data$LotArea, train_data$SalePrice, xlab = "LotArea", ylab = "SalePrice", main = "Scatter plot")

目标变量与特征的相关性： 如果想了解特征与目标变量之间的关系，可以单独计算它们的相关系数或绘制散点图。

**# 计算训练数据中各个特征与目标变量（比如 SalePrice）的相关系数
cor_target <- cor(train_data[, -c(1:5)]) # 假设前五列是标识性特征，不包括在相关性计算中
cor_target_with_target <- cor(train_data[, -c(1:5)], train_data$SalePrice) # 如果要包括目标变量

# 输出相关性较高的特征
highly_correlated_features <- names(which(apply(cor_target_with_target, 1, function(x) abs(x) > 0.5))) # 举例：相关系数绝对值大于0.5

# 绘制特征与目标变量的散点图
plot(train_data$OverallQual, train_data$SalePrice, xlab = "OverallQual", ylab = "SalePrice", main = "Scatter plot")
**

四、对房价数据集进行特征重要性分析

使用随机森林模型进行特征重要性分析

library(randomForest)

# 创建随机森林模型
rf_model <- randomForest(SalePrice ~ ., data = train_data)
#SalePrice ~选取分析的特征
# 查看特征的重要性
importance(rf_model)

XGBoost 或 LightGBM 模型： 类似地，这些梯度提升树模型也可以提供特征的重要性排序。

# 假设使用XGBoost模型进行特征重要性分析
library(xgboost)

# 将数据转换为矩阵格式
dtrain <- xgb.DMatrix(as.matrix(train_data[, -c(1:5)]), label = train_data$SalePrice)

# 设置模型参数
params <- list(objective = "reg:squarederror", eval_metric = "rmse")

# 训练XGBoost模型
xgb_model <- xgb.train(params = params, data = dtrain, nrounds = 100)

# 查看特征的重要性
xgb.importance(model = xgb_model)

特征选择算法：使用一些特征选择的算法（如基于统计学的方法、递归特征消除等）可以帮助你识别出最重要的特征。

# 假设使用递归特征消除进行特征选择
library(caret)

# 定义控制参数
ctrl <- rfeControl(functions = rfFuncs, method = "cv", number = 5) # 使用随机森林模型进行特征选择

# 运行递归特征消除
rfe_output <- rfe(train_data[, -c(1:5)], train_data$SalePrice, sizes = c(1:10), rfeControl = ctrl)

# 查看特征排名
rfe_output$ranking