R语言数据处理

 

 

一、缺失值的处理

任何规模的项目都可能存在缺失值,缺失值会影响数据的呈现

1、检测缺失值

R语言中提供了is.na()来检测缺失值是否存在

sum(is.na(nhanes2)) #计算数据集nhanes2中的缺失值总数

is.na(mydata)

2、如何处理缺失值

①直接剔除该字段

rm(mydata['key1'])

②分析中排除缺失值

y=sum(x,na.rm=True)

函数complete.cases()、na.omit()可用来存储没有缺失值的数据框或矩阵形式的实例(行):

newdata<-mydata[complete.cases(mydata),]

newdata<-na.omit(mydata)

③填充缺失值

 

 

二、删除不必要的字段

1、subset方法

其中数据为mydf,需要删除的列为X

mydf <- subset(mydf, select = -X )

2、利用布尔类型

myvars=names(mydata)%in%c("key1")

newdata=mydata[!myvars]

3、利用条件筛选出需要的字段条件

newdata=mydata[which(gender=="m",age>30)]

三、重复值的处理

mydata[!duplicated(mydata),]

选择性删除

mydata[!duplicated(mydata【】),]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值