python中读取CSV（TXT）文件数据或将数据写入到CSV（TXT）文件中

最新推荐文章于 2024-07-23 00:07:24 发布

樱与刀

最新推荐文章于 2024-07-23 00:07:24 发布

阅读量2.7w

点赞数 19

分类专栏：数据处理 Python 文章标签： python pandas

本文链接：https://blog.csdn.net/alip39/article/details/82193659

版权

数据处理同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

Python

3 篇文章 0 订阅

订阅专栏

python中读取CSV（TXT）文件数据或将数据写入到CSV（TXT）文件中

1.pandas方式

读取文件中的数据：

我们常用的方式就是通过调用pandas包来实现对文件的读取:

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)*

read_csv函数有很多的参数，下面对一些重点参数进行介绍:

filepath_or_buffer: 表示文件的系统位置、URL、文件型对象的字符串。

sep：用于对行中各字段进行拆分的字符序列或正则表达式。

header：用作列名的行号。默认为0（第一行），如果文件没有标题行就将header参数设置为None。

names：用于结果的列名列表，结合header=None，可以通过names来设置标题行。

index_col：用作行索引的列编号或列名。可以是单个名称/数字或有多个名称/数字组成的列表（层次化索引）。

skiprows：需要忽略的行数（从0开始），设置的行数将不会进行读取。

na_values：设置需要将值替换成NA的值。

nrows：需要读取的行数。

encoding：用于unicode的文本编码格式。例如，"utf-8"或"gbk"等文本的编码格式。

代码实例：
对于文本数据data：

name,math,english,chinese,computerscience
xiaoli,81,82,83,84 
xiaowang,85,86,87,88 
xiaozhang,89,90,91,92

我们键入读取代码：

data = pd.read_csv('data.txt')

print(data)

输出结果为：

        name  math  english  chinese  computerscience
0     xiaoli    81       82       83               84
1   xiaowang    85       86       87               88
2  xiaozhang    89       90       91               92

可以看到，read_csv函数默认分隔符为逗号，且默认文本中第一行（ name math english chinese computerscience）为标题，即header。

当然我们也可以手动设置标题，这时需要设置names参数。
例如：
键入代码：

data2 = pd.read_csv('data.txt', names= ['a', 'b', 'c', 'd', 'e'])
print(data2)

输出结果：

           a     b        c        d                e
0       name  math  english  chinese  computerscience
1     xiaoli    81       82       83              84 
2   xiaowang    85       86       87              88 
3  xiaozhang    89       90       91              92

但当我们读取无标题文件时，或者将文本中第一行也作为数据读入时，这时应该设置header参数为None。

例如：
键入代码：

data1 = pd.read_csv('data.txt', header=None)
print(data1)

输出结果：

0       name  math  english  chinese  computerscience
1     xiaoli    81       82       83              84 
2   xiaowang    85       86       87              88 
3  xiaozhang    89       90       91              92

这里可以看到，name这一行左侧的行编号显示为0。

当我们想要左侧索引（0，1，2，3，4…），变换成其他的列索引（如：姓名），可以使用index_col参数来实现。

键入代码：

# 设置列索引

 data3 = pd.read_csv('data.txt', names=['a', 'b', 'c', 'd', 'e'],    index_col='a')
 print(data3)

输出结果：

              b        c        d                e
a                                                 
name       math  english  chinese  computerscience
xiaoli       81       82       83              84 
xiaowang     85       86       87              88 
xiaozhang    89       90       91              92

可以看到列索引变成了人名。

有的时候，你会遇到表格中的某些行数据你并不需要。可以通过skiprows参数来跳过这些行。

键入代码：

data4  = pd.read_csv('data.txt', skiprows=[2])
print(data4)

输出结果：

        name  math  english  chinese  computerscience
0     xiaoli    81       82       83               84
1  xiaozhang    89       90       91               92

原本xiaowang这一行就跳过不在读取了。

将数据写入到文件

DataFrame.to_csv(path_or_buf=None, sep=’, ’, na_rep=”, float_format=None, columns=None, header=True, index=True, index_label=None, mode=’w’, encoding=None, compression=None, quoting=None, quotechar=’”’, line_terminator=’\n’, chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, escapechar=None, decimal=’.’, **kwds)

DataFrame.to_csv函数有很多的参数，下面对一些重点参数进行介绍:

path_or_buf: 文件保存的路径

sep： 使用分隔符来分割保存的数据

na_repna_rep： 将缺省值保存为NA

float_format: 设置保存数据的格式，例如：float_format=’%.2f’ ，将数据保存为浮点型小数点后两位。

header: 是否保存列名。

data1.to_csv('data1.csv', header= 0)

0,name,math,english,chinese,computerscience
1,xiaoli,81,82,83,84 
2,xiaowang,85,86,87,88 
3,xiaozhang,89,90,91,92

data1.to_csv('data2.csv', header= 1)

 ,0   ,1   ,2      ,3      , 4
0,name,math,english,chinese,computerscience
1,xiaoli,81,82,83,84 
2,xiaowang,85,86,87,88 
3,xiaozhang,89,90,91,92

index: 是否保留行索引

data1.to_csv('data3.csv',index=0)

0,1,2,3,4
name,math,english,chinese,computerscience
xiaoli,81,82,83,84 
xiaowang,85,86,87,88 
xiaozhang,89,90,91,92

2.使用CSV包方式

文本数据为：

ID,UserName,Password,Age,Country

1001,qiye,qiye_pass,24,China

1002,Mary,Mary_pass,20,USA

1003,Jack,Jack_pass,20,USA

读取文件中的数据


import csv

with open('qiye.csv','r') as f:

    f_csv = csv.reader(f)

    headers = next(f_csv)

    print(headers)

    for row in f_csv:

        print(row)

导入到文本中

import csv

with open('qiye.csv','w') as f:

    f_csv = csv.writer(f)

    f_csv.writerow(headers)

    f_csv.writerows(rows)

3.不清空连续写入

有时候需要将每次循环计算出的结果写入到文本中，为了避免覆盖原来的数据，需要不清空连续写入。

代码中，将‘w’改为‘a’即可。写入的数据需要是string类型的。


with open('datatest.txt', 'a') as f:
    for i in range(100):

        f.write(str(i) + '\n')

结果：

樱与刀

关注

19
点赞
踩
111

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录