完整的R语言预测建模实例-从数据清理到建模预测

最新推荐文章于 2024-05-24 12:38:47 发布

LuLuZhang15

最新推荐文章于 2024-05-24 12:38:47 发布

阅读量6.2k

点赞数 4

分类专栏： R

R 专栏收录该内容

26 篇文章 8 订阅

订阅专栏

本文使用Kaggle上的一个公开数据集，从数据导入，清理整理一直介绍到最后数据多个算法建模，交叉验证以及多个预测模型的比较全过程，注重在实际数据建模过程中的实际问题和挑战，主要包括以下五个方面的挑战：

缺失值的挑战
异常值的挑战
不均衡分布的挑战
(多重)共线性的挑战
预测因子的量纲差异

　　以上的几个主要挑战，对于熟悉机器学习的人来说，应该都是比较清楚的，这个案例中会涉及到五个挑战中的缺失值，量纲和共线性问题的挑战。

　　案例数据说明

　　本案例中的数据可以在下面的网址中下载：

　　https://www.kaggle.com/primaryobjects/voicegender/downloads/voicegender.zip

　　下载到本地后解压缩会生成voice.csv文件

　　下面首先大概了解一下我们要用来建模的数据

　　数据共包含21个变量，最后一个变量label是需要我们进行预测的变量，即性别是男或者女

　　前面20个变量都是我们的预测因子，每一个都是用来描述声音的量化属性。

　　下面我们开始我们的具体过程

　　步骤1：基本准备工作

　　步骤1主要包含以下三项工作：

设定工作目录
载入需要使用的包
准备好并行计算

　　步骤2：数据的导入和理解

　　数据下载解压缩后就是一份名为‘voice.csv’的文件，我们将csv文件存到我们设定的工作目录之中，就可以导入数据了。

　　### read in original dataset

　　voice_Original <- read_csv( "voice.csv",col_names=TRUE)describe(voice_Original)Hmisc包中的describe函数是我个人最喜欢的对数据集进行概述，整体上了解数据集的最好的一个函数，运行结果如下：

　　通过这个函数，我们现在可以对数据集中的每一个变量都有一个整体性把握。

　　我们可以看出我们共有21个变量，共计3168个观测值。

　　由于本数据集数据完整，没有缺失值，因而我们实际上并没有缺失值的挑战，但是为了跟实际的数据挖掘过程相匹配，我们会人为将一些数据设置为缺失值，并对这些缺失值进行插补，大家也可以实际看一下我们应用的插补法的效果：

　　可以看出，我们的插补出来的值和原始值之间的差异是比较小的，可以帮助我们进行下一步的建模工作。

　　另外一点，我们在实际工作中，我们用到的预测因子中，往往包含数值型和类别型的数据，但是我们数据中全部都是数值型的，所以我们要增加难度，将其中的一个因子转换为类别型数据，具体操作如下：

　　图形结果如下：

　　但是我们更关注的是，预测因子之间是不是存在高度的相关性，因为预测因子间的香瓜性对于一些模型，是有不利的影响的。

　　对于研究预测因子间的相关性，corrplot包中的corrplot函数提供了很直观的图形方法：

　　###find correlations between factorsfactor_Corr <- cor(voice_Original[,-c( 9,21)])corrplot(factor_Corr, method="number")

　　步骤3：数据分配与建模

　　在实际建模过程中，我们不会将所有的数据全部用来进行训练模型，因为相比较模型数据集在训练中的表现，我们更关注模型在训练集，也就是我们的模型没有遇到的数据中的预测表现。

　　因此，我们将我们的数据集的70%的数据用来训练模型，剩余的30%用来检验模型预测的结果。

　　### separate dataset into training and testing sets

　　sample_Index <- createDataPartition(voice_Original $label,p= 0.7, list= FALSE)voice_Train <- voice_Original[sample_Index,]voice_Test <- voice_Original[-sample_Index,]

　　但是我们还没有解决之前我们发现的一些问题，数据的量纲实际上是不一样的，另外某些因子间存在高度的相关性，这对我们的建模是不利的，因此我们需要进行一些预处理，我们又需要用到preProcess函数：

　　### preprocess factors forfurther modelingpp <- preProcess(voice_Train,method=c("scale","center","pca"))

　　voice_Train<- predict(pp,voice_Train)

　　voice_Test<- predict(pp,voice_Test)

　　我们首先将数值型因子进行了标准化，确保所有的因子在一个量纲上，接着对已经标准化的数据进行主成分分析，消除因子中的高相关性。如果我们看一下我们的现在经过处理的数据，就可以看到：

　　原来的所有数值型因子已经被PC1-PC10取代了。

　　现在，我们进行一些通用的设置，为不同的模型进行交叉验证比较做好准备。

　　可以看到随机森林的结果介于上面两个模型之间。但是模型的结果是存在一定的偶然性的，即因为都使用了交叉验证，每个模型都存在抽样的问题，因此结果之间存在一定的偶然性，所以我们需要对模型进行统计意义上的比较。

　　但是在此之前，我想提一下并行计算的问题，我们在开始建模之前就使用parallel和doParallel两个包设置了并行计算的参数，在modelControl中将allowParallel的值设为了TRUE,就可以帮助我们进行交叉验证时进行并行计算，下面这张图可以帮助我们看到差异：

　　因为原生的R只支持单进程，通过我们的设置，可以将四个核都使用起来，可以大为减少我们的计算时间。

　　我们最后的一个步骤就是要将三个模型进行比较，确定我们最优的一个模型：

　　结果从准确率和Kappa值两个方面对数据进行了比较，可以帮助我们了解模型的实际表现，当然我们也可以通过图形展现预测结果：

　　根据结果，我们可以看到，其实逻辑回归的结果还是比较好的。

　　所以我们可以将逻辑回归的结果作为我们最终使用的模型。

LuLuZhang15

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
4
评论
完整的R语言预测建模实例-从数据清理到建模预测

本文使用Kaggle上的一个公开数据集，从数据导入，清理整理一直介绍到最后数据多个算法建模，交叉验证以及多个预测模型的比较全过程，注重在实际数据建模过程中的实际问题和挑战，主要包括以下五个方面的挑战：缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异　　以上的几个主要挑战，对于熟悉机器学习的人来
复制链接

扫一扫

专栏目录