Python pandas库DataFrame对象读取csv、txt文件的用法汇总-如何跳过文件开头的行，如何指定列间分隔符，如何重新定义列的名称，如何指定索引列，筛选列？

最新推荐文章于 2024-08-26 16:32:27 发布

data_amateur

最新推荐文章于 2024-08-26 16:32:27 发布

阅读量3.5k

点赞数 2

分类专栏： python基础

本文链接：https://blog.csdn.net/lost0910/article/details/105063482

版权

127 篇文章 20 订阅

订阅专栏

Python pandas库DataFrame对象读取csv文件的用法-如何跳过文件开头的行，如何指定列间分隔符，如何重新定义列的名称？

今天我们用例子说明一下个这个问题，现在有一个txt文件，内容如下,我们可以看到有几个特点：第一行数据是没有用的，数据使用两个空格进行分割的；数据是没有列名的，下面我们一步步的对数据进行处理：

import pandas as pd
df = pd.read_csv('test.txt')
df

输出如下：

输出结果差强人意，只是第一行数据被当做列名。

df = pd.read_csv('test.txt',skiprows = 1)

输出结果如下：

可以看到已经跳过第一行了，但是这里数据的第一行，被当做了列名这不是我们想要的结果。可以设定数据没有列名，所有的都是数据。

默认情况下header参数为header=0，即将第一行作为参数。

df = pd.read_csv('test.txt',skiprows = 1,header=None)

输出如下：

这里可以看到，数据读出是正常的了，但是好像出现一个问题。所有的数据被当成了一列来处理。如何解决这个问题呢？

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  ')

输出结果看一下：

已经满足我们的需求了。这里有两点注意：1).列之间使用两个空格分隔，因此sep必须指明两个空格,否则会出现问题。2).不指定列名的时候，系统自动的用数字0,1,2,3作为列名。下一步我们就手动指定我们的列名。

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'])

输出结果如下：

好了，现在数据终于以我们想要的结果呈现了。

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'],index_col = ['A'])

使用index_col=‘列名’，达到设定列名的目的。输出结果如下：

df = pd.read_csv('test.txt',skiprows = 1,header=None,sep='  '\
                 ,names=['A','B','C','D'],index_col = ['A'])[['C','D']]

只要像在dataframe对象选取某列的操作相同，使用列表将需要筛选的列，取出即可。

好了，后续我还会继续补充dataframe在读取文件的相关问题。欢迎关注、点赞和交流^_^。

data_amateur

关注

专栏目录