R和pandas中的数据框处理操作汇总

最近除了画图就是做统计分析,发现R和pandas对于大数据处理十分方便,且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了,因此这里记录整理一下,方便日后查看。

拖到最后可以看到一些常见问题的处理方法。

1.数据读入

R语言:

read.table(file, sep='\t', header=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)

header:逻辑值,为TRUE则将第一行作为表头,为FALSE时可用col.names自定义表头,若都没有定义则表头的名字为V1、V2、V3...;

check.names:逻辑值,默认为TRUE,有没有发现当原始列名称为数字时入读后会在前面加一个X导致后期调用各种报错?或者原始列名称包含-符号的时候读入后变成了.符号?check.names=FALSE动动小指头就能搞定;

skip:数值,控制跳过n行读入;

nrows:数值,控制最大读入行数;

row.names:向量,指定index;

pandas:

read_csv(file, sep='\t',header=0,index_col=0,skiprows=0,nrows=10,names=[])

header:数值、列表或None,当设置为None时自动标号表头为0、1、2、3...,此时可以利用names参数(相当于R中的col.names)传递一个list自定义表头。当设置为数值n时则是将第n行作为表头,当设置成一个list例如[0,1,3]时,这个list表示将文件中的这些行作为列标题(意味着每一列有多个标题),介于中间的行将被忽略掉(例如本例中的数据1,2,4行将被作为多级标题出现,第3行数据将被丢弃,dataframe的数据从第5行开始);

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值