众所周知现在是数据的时代,人们每天都在与数据打交道,甚至网络都可以被视为获取数据的API。大家在做数据处理的时候,难免会与文件交互,那么对于指定的文件类型,我们应该如何操作呢?本文将详细讲解各类文件的操作方式,可以收藏一下。
01 txt文件
Python2当中有两个内置函数open()和file()用于txt文件的读写,这两个函数的参数和作用都十分的相似,可能也是处于精简的考量,Python3中只保留了open()这个函数。比较符合Python风格的写法如下:
其实pandas也能用于读取txt文件,且读取得到的为DataFrame类型的数据,如果正好有用到pandas或者numpy处理数据,那么pandas会是不错的选择,而且速度也很快。
02 csv文件
我们用Python3中内置的csv库来操作csv文件。当然也可以使用pandas,它的read_csv()方法可以通过设置不同的分隔符参数,用来读取txt文件,csv文件或者tsv文件。除此之外,它的skiprows参数可以用于过滤不需要的行。我们甚至可以直接给它一个URL,是不是很强大呢?
03 excel文件
讲到Python3操作excel文件,这里有很多种选择:openpyxl,xlsxwriter,xlrd,xlwt,xlutils,以及pandas,其实pandas是依赖通过read_excel、to_excel读出或写入excel时需要xlrd、xlwt库,调用ExcelWriter方法则需要openpyxl库。另外,只有xiutils、openpyxl和pandas支持excel文件的追加操作。下面的表格对比了4种常用工具的优劣。
1.使用xlrd读取excel文件
2.使用xlwt写excel文件
3.使用openpyxl实现对excel内容的读、写和追加。
4.使用xlutils结合xlrd实现文件追加
xlutils在追加文件过程中像是在xlrd在xlwt之间建立了管道,通过copy方法把xlrd.Book对象转化为xlwt.Workbook对象,从而实现excel文件的追加。
5.利用pandas读取excel文件并追加内容
6.使用openpyxl画图
04 json文件
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。常用于web应用程序中进行数据交换,在平常工作中经常与它打交道。Python内置库json很好地支持了json文件的操作。json.dump()用来存储数据到json文件中,接受两个实参:要存储的数据和用于存储数据的文件对象。json.load() 则用来从json文件读取数据到内存中。
本文介绍了Python操作txt、csv、excel和json文件的方法,这些都是Python在数据处理中最常见的一些文件类型,更多干货内容,欢迎关注公众号:知了python