R语言-数据预处理

最新推荐文章于 2024-07-15 17:08:02 发布

pdc31czy

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量530

点赞数 1

分类专栏： R 文章标签：机器学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdc31czy/article/details/126895590

版权

R 专栏收录该内容

29 篇文章 3 订阅

订阅专栏

##### 5.2 数据预处理 #####

#数据分割、缺失值处理、剔除近零方差变量、剔除高度线性相关变量、数据标准化

### 载入数据和相应包 ###

# 清空工作目录

rm(list = ls())

# 加载机器学习包

# install.packages(caret)

library(caret)

##1.读入数据

# 加载数据

dat = read.csv('相亲数据2.csv', fileEncoding = "UTF-8")

dim(dat)

head(dat)

##2.分割训练集和测试集

#(1)留出法

#将样本分为两个互斥的子集，80%为训练集，剩下20%为测试集

createDatePartition()

#保证训练集和测试集中Y的比例是一致的

#按照Y进行分层抽样

## 按照因变量进行分层抽样 ##

# 数据划分为训练集和测试集

# 设置随机种子

set.seed(1234)

# 将数据集的80%划分为训练集，20%划分为测试集

trainIndex = createDataPartition(dat$决定, p = .8,

list = FALSE,

times = 1)

# createDataPartition会自动从y的各个level随机取出等比例的数据来，组成训练集,可理解为分层抽样；

datTrain = dat[trainIndex, ]

# 训练集

datTest = dat[-trainIndex, ]

# 测试集

#(2)交叉验证法

#将原始数据分成K组（一般是均分）

#每次训练将其中一组作为测试集，另外K-1组作为训练集

set.seed(1234)

index = createFolds(dat$决定, k = 3, list = FALSE, returnTrain = TRUE)

index

## [1] 2 3 2 1 1 1 1 3 2 1 3 3 2 3 2

testIndex = which(index == 1)

datTraincv = dat[-testIndex, ]

# 训练集

datTestcv = dat[testIndex, ]

# 测试集

#(3)Bootstrap法

#Bootstrap抽样

#从给定训练集中有放回的均匀抽样

createResample()#times参数用于设定生成几份随机样本

set.seed(1234)

createResample(dat$决定, times = 3, list = F)

#(4)分割时间序列

createTimesSlices()

#initialWindow参数表示第一个训练集中的样本数

#horizon参数表示每个测试集中的样本数

#fixedWindow参数表示每个训练集中的样本数是否相同

# 加载数据

growdata = read.csv('水哥成长日记.csv', fileEncoding = "UTF-8")

head(growdata)

(timeSlices = createTimeSlices(1:nrow(growdata),

initialWindow = 5, horizon = 2, fixedWindow = TRUE))

# 5表示初始的window，2表示测试集是训练集后的2位；fixedwindow表示都是训练集宽度一致，如果想递每次都从第一个样本开始，那么就得设置为FALSE，默认为TRUE。

##3.处理缺失值

preProcess()#该函数提供了三种缺失值填补的方法，即K近邻方法、Bagging树集成方法和中位数法

# 需要注意的是，采用K近邻方法时，会对原始数据进行标准化，如果需要返回原始值，还需将标准化公式倒推回来；

# 使用Bagging树集成方法，理论上对缺失值的填补更权威，但其效率比较低；

# 使用中位数方法，速度非常快，但填补的准确率有待验证。

# 如果你想使用多重插补法，不妨也可以试试mice包，其操作原理是基于MC（蒙特卡洛模拟法）。

# preProcess can be used to impute data sets based only on information in the training #set，注意只能用训练集信息。

#(1) 中位数法 ##

#用训练集的中位数代替缺失值

imputation_k = preProcess(datTrain,method = 'medianImpute')

datTrain1 = predict(imputation_k, datTrain)

(datTest1 = predict(imputation_k, datTest))

median(datTrain$智力, na.rm = T)

# 显然中位数这个填补方法不太合理，除非样本取值比较均匀;注意这里用的也是训练集的中位数

#(2) K近邻方法 ##

#对于需要插值的记录，基于欧氏距离计算k个和它最近的观测，

#然后利用k个近邻的数据来填补缺失值

imputation_k = preProcess(datTrain, method = 'knnImpute')

## Warning in preProcess.default(datTrain, method = "knnImpute"): These

## variables have zero variances: 是否喜欢矮矬穷, 对方是否喜欢矮矬穷

datTrain1 = predict(imputation_k, datTrain)

datTest1 = predict(imputation_k, datTest)

datTrain$智力 = datTrain1$智力 * sd(datTrain$智力, na.rm = T) + mean(datTrain$智力, na.rm = T)

datTest$智力 = datTest1$智力 * sd(datTrain$智力, na.rm = T) + mean(datTrain$智力, na.rm = T)

datTest

# 注意，这里自动用的是训练集的mean和sd对测试集进行标准化

#所以最后得到的数据是标准化之后的

#如果想看原始值，那么还需要将其去标准化倒推回去

##4.处理0方差变量（删除近零方差）

nearZeroVar()#找出近零方差的变量

dim(datTrain)

(nzv = nearZeroVar(datTrain))

datTrain = datTrain[, -nzv]

##5.删除共线性变量

findCorrelation()#自动找到高度共线性的变量，并给出建议剔除的变量

#数据中不能有缺失值

#只能包含数值型变量

# 数据中不能有NA

datTrain1 = datTrain[, -c(1, 6)]

(descrCor = cor(datTrain1))

highlyCorDescr = findCorrelation(descrCor, cutoff = .75, names = F, verbose = T)

highlyCorDescr

filteredTrain = datTrain1[, -highlyCorDescr]

# input只能是numeric型的dataframe或者matrix，且无缺失值(在此之前必须处理缺失值)

##6.标准化

preProcValues = preProcess(datTrain, method = c("center", "scale"))

trainTransformed = predict(preProcValues, datTrain)

testTransformed = predict(preProcValues, datTest)

# 利用训练集的均值和方差对测试集进行标准化

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
R语言-数据预处理

数据预处理
复制链接

扫一扫

专栏目录

pdc31czy CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

109万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

673: 积分

82: 粉丝

96: 获赞

6: 评论

264: 收藏

私信

关注

热门文章

分类专栏

Python 11篇
Linux 3篇
TensorFlow 8篇
个人笔记 15篇
MATLAB 6篇
R 29篇

最新评论

Linux配置Tensorflow2 GPU环境
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
Linux配置Tensorflow2 GPU环境
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LINUX Drive CUDA cuDNN Anaconda TensorFlow2
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
R语言-图像分析
今天吃苹果了吗: 您好老师，想请教一下r语言可以读取bmp图像文件的文件头和位图数据吗
R语言-模型训练与调参
lhzdmxxb: >Profile = rfe(x, y, sizes = subsets, rfeControl = ctrl) >Error in rfe.default(x, y, sizes = subsets, rfeControl = ctrl) : there should be the same number of samples in x and y 请问这种错误怎么解决啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。