本文主要分为两部分:
- csv、tsv和txt格式数据文件的异同点;
- 如何用Python读取/生成不同格式的数据文件。
一. csv、tsv和txt格式数据文件的异同点
- 相同点: csv、tsv和txt都属于文本文件。
- 不同点:csv和tsv文件的字段间分别由逗号和tab键隔开,而txt文件则没有明确要求,可使用逗号/制表符/空格等 多种不同的符号。
文件类型 | 全称 | 字段间的分隔符 |
---|---|---|
csv | Comma-separated values | 半角逗号(’,’) |
tsv | Tab-separated values | 制表符(Tab,’\t’) |
txt | Text File | 逗号/制表符/空格等 |
二. Python如何 读取/生成 不同格式数据文件
Python如何读取不同格式的数据文件,本文以csv和txt这两种常用的文档格式为例。
在这里不得不提一个数据处理最最最最必不可少的库-pandas,pandas官方中文文档在下先贴为敬,下图为pandas库IO工具(文本,CSV,HDF5,…)

2.1 读取/生成csv数据文件
如下为最简化用法,相关函数更多参数用法详见csv文本官方文档。
import pandas as pd
# 读取csv格式文件
data=pd.read_csv('./mydata.csv')
# 生成csv格式文件
data.to_csv('./my_new_data.csv')
通常来说,为了更好的用多种语言处理数据,推荐将数据存为csv格式(csv文件是以逗号分隔的一个文本文件,可以直接更改后缀为与其他类型文件),可同时在excle、python、matlab、sas和R等语言中切换自由简易,数据格式不受损!
2.2 读取/生成txt数据文件
读取txt格式数据时,函数read_csv和read_table均可使用。最主要差别: 从read_csv函数读取文件数据时,默认分隔符是逗号,txt文档并没有逗号分隔,所以在读取的时候需要增加sep分隔符参数。
# 读取txt文件
import pandas as pd
# 调用read_table函数读取txt文件
data = pd.read_table("./mydatat.txt")
# 调用read_csv函数读取txt文件
df = pd.read_csv("./my_new_data.txt",sep=',')
2.1节有提到通常将数据存为csv格式,但是txt格式最大的优势便是:体积小,随便存!
# csv文件存为txt文件
# 直接改后缀啊!
# 文档后缀由csv改为txt即可!