Note:R+Python数据科学实战(1)

最新推荐文章于 2024-05-15 02:11:33 发布

J_Fun

最新推荐文章于 2024-05-15 02:11:33 发布

阅读量1.2k

点赞数

分类专栏： Analysis Practice

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/J_Fun/article/details/56679621

版权

Analysis Practice 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据的初步处理：

#用read.csv的命令来导入数据，相较于read.table，个人觉得csv更常用，并适用于任何操作系统；

#若数据是zip压缩文件，可通过unz("filename.zip","filename")的命令来直接读取zip中的文件，而不用解压；

e.g: vehicles=read.csv(unz("vehicles.csv.zip","vehicles.csv"),stringsAsFactors=F)

（#R默认将字符串转为因子，即定性变量，被认为对数据的标注或标签；因子被存为整数，且没有顺序；）

#养成导入文件后检查是否成功的习惯，一般检查数据的一些基本信息，用head(par)，nrow(par)，ncol(par)，names(par)，class(par)；

#一些数据当中，一个值可能会重复出现多次，当需要取一套各数值时用unique(data)处理数据，而种类的数量用length(..)统计长度；

#提取变量下数据的最小值和最大值，min(data)，max(data)；

#用table(data$var)函数来快速浏览数据，变量下不同取值所对应的记录数，即统计相同值的数量；

(#table还能做一些交叉列联表，table(data1,data2)，将两个数据集交叉显示，若其间有相关性；)

#若数据中有缺失值的时候，用NA来填补，使得数据框完整；

#根据字符检索函数substr对数据进行条件操作，用ifelse(condition,op1,op2)命令，若满足条件则执行op1，不然op2；

#with(data,operation)即在with命令下先将范围转到data数据集下，再在此数据集下进行operation操作；

e.g: table(vehicles$fuelType1)

e.g: vehicles$trany[vehicles$trany == ""] = NA

e.g: vehicles$trany2=ifelse(substr(vehicles$trany,1,4)=="Auto","Auto","Manual")

在数据处理之前，一定要对文件中数据的类型有认识：“数值型”；“字符型”；“逻辑型”；“因子”等。因为，对于不同类型的数据有时需要不同的命令处理，有时也需要将数据统一和转换。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Note:R+Python数据科学实战(1)

Chapter 2（汽车数据的可视化分析）:#在开始处设置好文件路径e.g: setwd("C:/Users/Sherlock13/Desktop/data_practice/")#用read.csv的命令来导入数据，相较于read.table，个人觉得csv更常用，并适用于任何操作系统；#若数据是zip压缩文件，可通过unz("filename.zip","filenam
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。