R语言之数据预处理笔记

数据预处理是将 原始数据 转化成能够用于建模的一致数据的过程,它是分析流程中非常关键的一个环节!!!! 首先,载入需要的R包 caret :提供机器学习模型及拟合效果的系统交互界面 e1071:各类计量经济和机器学习的延伸,我们使用其中的naiveBayes函数进行朴素贝叶斯判别 gridExtra:绘图辅助功能,将不同图形组合在一起成为图表 lattice:建立在核心绘图能力上的格子框架
摘要由CSDN通过智能技术生成

数据预处理是将 原始数据 转化成能够用于建模的一致数据的过程,它是分析流程中非常关键的一个环节!!!!
首先,载入需要的R包
caret :提供机器学习模型及拟合效果的系统交互界面
e1071:各类计量经济和机器学习的延伸,我们使用其中的naiveBayes函数进行朴素贝叶斯判别
gridExtra:绘图辅助功能,将不同图形组合在一起成为图表
lattice:建立在核心绘图能力上的格子框架图形
imputeMissings:填补缺失值
RANN:应用K-邻近算法
corrplot:相关矩阵的高级可视化
nnet:拟合单个潜层级的神经网络模型
car:回归模型解释和可视化工具
gpairs:广义散点图
reshape2:灵活重构和整合数据,主要有两个函数melt()和dcast()
psych:心理计量学方法和抽样调查分析,尤其是因子分析和项目反映模型plyr:可以将数据分割成更小的数据,然后对分割后的数据进行一些操作,最后把操作的结果汇总
tidyr:清理糅合数据的包,主要函数是spread()和gather()

> library(caret)
> library(e1071)
> library(gridExtra)
> library(lattice)
> library(imputeMissings)
> library(RANN)
> library(corrplot)
> library(nnet)
> library(car)
> library(gpairs)
> library(reshape2)
> library(psych)
> library(plyr)
> library(tidyr)

数据清理

检查数据

1.有哪些变量
2.变量怎样分布
3.是不是存在错误的观测

以下是读取服装消费者数据

> sim.dat=read.csv("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/SegData.csv")

这里写图片描述
由上图,灰色框勾选的即为所有的变量。Q1…Q10貌似合理,min为1,max为5,gender,house,online_exp,store_trans,online_trans,segment看上去也合理。
而其他(红色区域勾选部分)存在异常,其中age和store_exp中存在离群值,income中存在缺失值。

异常值初步处理:

1.将这些值设置成缺失状态

> sim.dat$age[which(sim.dat$age>100)]=NA
> sim.dat$store_exp[which(sim.dat$store_exp<0)]=NA
> summary(subset(sim.dat,select=c("age","income")))
      age            income      
 Min.   :16.00   Min.   : 41776  
 1st Qu.:25.00   1st Qu.: 85832  
 Median :36.00   Median : 93869  
 Mean   :38.58   Mean   :113543  
 3rd Qu.:53.00   3rd Qu.:124572  
 Max.   :69.00   Max.   :319704  
 NA's   :1       NA's   :184     
> 

2.缺失值填补
-(1)中位数或众数填补
即用含有缺失值变量中的中位数或众数填补缺失值

#impute()为imputeMissings包中的函数
> demo_imp=impute(sim.dat,method="median/mode")
> summary(demo_imp[,1:5])
      age           gender        income       house       store_exp      
 Min.   :16.00   Female:554   Min.   : 41776   No :432   Min.   :  155.8  
 1st Qu.:25.00   Male  :446   1st Qu.: 87896   Yes:568   1st Qu.:  205.1  
 Median :36.00                Median : 93869             Median :  329.8  
 Mean   :38.58                Mean   :109923             Mean   : 1357.7  
 3rd Qu.:53.00                3rd Qu.:119456             3rd Qu.:  597.3  
 Max.   :69.00<
  • 28
    点赞
  • 182
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
R语言中进行关联规则预处理的过程可以分为以下几个步骤: 1. 数据收集和导入:首先要收集或导入包含关联规则分析所需数据的数据集。可以使用read.csv()函数或其他相关函数来导入数据。 2. 数据清洗和预处理:对于关联规则分析,数据应该是离散的或二进制的。因此,需要对数据进行清洗和预处理,确保数据的格式正确,并进行必要的转换。 3. 数据转换:根据数据的要求和目标,可能需要对数据进行转换。例如,将数据转换为事务形式,其中每一行代表一个事务,并且每个项目用布尔值表示。 4. 频繁项集的挖掘:使用Apriori算法或其他相关算法,根据设定的最小支持度阈值,挖掘出频繁项集。频繁项集是经常一起出现的项的集合。 5. 生成关联规则:根据频繁项集,使用置信度或其他相关度量来生成关联规则。关联规则由前提和结论组成,前提是规则的先决条件,而结论则是根据前提可以推导出的结果。 6. 关联规则评估和筛选:对生成的关联规则进行评估,可以使用支持度、置信度、提升度等指标来衡量规则的质量。根据设定的规则质量阈值,筛选出符合要求的强关联规则。 总结起来,R语言中进行关联规则预处理的步骤包括数据收集和导入、数据清洗和预处理、数据转换、频繁项集的挖掘、生成关联规则以及关联规则评估和筛选。这些步骤可以帮助我们预处理数据并得到具有较高质量的关联规则。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [r语言实现关联分析--关联规则挖掘(Apriori算法) (r语言预测学习笔记)](https://blog.csdn.net/weixin_45178611/article/details/107881690)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [R语言--数据挖掘3---关联规则分析](https://blog.csdn.net/qq_35167821/article/details/115741231)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值