Note:R+Python数据科学实战(1)

数据的初步处理:

#用read.csv的命令来导入数据,相较于read.table,个人觉得csv更常用,并适用于任何操作系统;

#若数据是zip压缩文件,可通过unz("filename.zip","filename")的命令来直接读取zip中的文件,而不用解压;


e.g: vehicles=read.csv(unz("vehicles.csv.zip","vehicles.csv"),stringsAsFactors=F)

(#R默认将字符串转为因子,即定性变量,被认为对数据的标注或标签;因子被存为整数,且没有顺序;)


#养成导入文件后检查是否成功的习惯,一般检查数据的一些基本信息,用head(par),nrow(par),ncol(par),names(par),class(par);

#一些数据当中,一个值可能会重复出现多次,当需要取一套各数值时用unique(data)处理数据,而种类的数量用length(..)统计长度;

#提取变量下数据的最小值和最大值,min(data),max(data);



#用table(data$var)函数来快速浏览数据,变量下不同取值所对应的记录数,即统计相同值的数量;

  (#table还能做一些交叉列联表,table(data1,data2),将两个数据集交叉显示,若其间有相关性;)

#若数据中有缺失值的时候,用NA来填补,使得数据框完整;

#根据字符检索函数substr对数据进行条件操作,用ifelse(condition,op1,op2)命令,若满足条件则执行op1,不然op2;

#with(data,operation)即在with命令下先将范围转到data数据集下,再在此数据集下进行operation操作;


e.g: table(vehicles$fuelType1)

e.g: vehicles$trany[vehicles$trany == ""] = NA

e.g: vehicles$trany2=ifelse(substr(vehicles$trany,1,4)=="Auto","Auto","Manual")


在数据处理之前,一定要对文件中数据的类型有认识:“数值型”;“字符型”;“逻辑型”;“因子”等。因为,对于不同类型的数据有时需要不同的命令处理,有时也需要将数据统一和转换。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值