R和pandas中的数据框处理操作汇总

最新推荐文章于 2024-03-29 16:37:46 发布

viancheng

最新推荐文章于 2024-03-29 16:37:46 发布

阅读量1.6k

点赞数 1

分类专栏：生信小技巧文章标签： python

本文链接：https://blog.csdn.net/viancheng/article/details/108614221

版权

最近除了画图就是做统计分析，发现R和pandas对于大数据处理十分方便，且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了，因此这里记录整理一下，方便日后查看。拖到最后可以看到一些常见问题的处理方法。1.数据读入R语言：read.table(file, sep='\t', header=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)header：逻辑值，为TRUE则将第

摘要由CSDN通过智能技术生成

最近除了画图就是做统计分析，发现R和pandas对于大数据处理十分方便，且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了，因此这里记录整理一下，方便日后查看。

拖到最后可以看到一些常见问题的处理方法。

1.数据读入

R语言：

read.table(file, sep='\t', header=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)

header：逻辑值，为TRUE则将第一行作为表头，为FALSE时可用col.names自定义表头，若都没有定义则表头的名字为V1、V2、V3...；

check.names：逻辑值，默认为TRUE，有没有发现当原始列名称为数字时入读后会在前面加一个X导致后期调用各种报错？或者原始列名称包含-符号的时候读入后变成了.符号？check.names=FALSE动动小指头就能搞定；

skip：数值，控制跳过n行读入；

nrows：数值，控制最大读入行数；

row.names：向量，指定index；

pandas：

read_csv(file, sep='\t',header=0,index_col=0,skiprows=0,nrows=10,names=[])

header:数值、列表或None，当设置为None时自动标号表头为0、1、2、3...，此时可以利用names参数（相当于R中的col.names）传递一个list自定义表头。当设置为数值n时则是将第n行作为表头，当设置成一个list例如[0,1,3]时，这个list表示将文件中的这些行作为列标题（意味着每一列有多个标题），介于中间的行将被忽略掉（例如本例中的数据1,2,4行将被作为多级标题出现，第3行数据将被丢弃，dataframe的数据从第5行开始）；

最低0.47元/天解锁文章

viancheng

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
R和pandas中的数据框处理操作汇总

最近除了画图就是做统计分析，发现R和pandas对于大数据处理十分方便，且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了，因此这里记录整理一下，方便日后查看。拖到最后可以看到一些常见问题的处理方法。1.数据读入R语言：read.table(file, sep='\t', header=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)header：逻辑值，为TRUE则将第
复制链接

扫一扫