pandas是数据分析的利器,既然是处理数据,首先要做的当然是从文件中将数据读取进来。pandas支持读取非常多类型的文件,示意如下
对于文本文件,支持csv, json等格式,当然也支持tsv文本文件;对于二进制文件,支持excel,python序列化文件,hdf5等格式;此外,还支持SQL数据库文件的读写。在日常开发中,最经典的使用场景就是处理csv,tsv文本文件和excel文件了。对于不同格式的文件,pandas读取之后,将内容存储为DataFrame, 然后就可以调用内置的各种函数进行分析处理1. CSV文件读写和R语言类似,对于文本文件的读写,都提供了一个标准的read_table函数,用于读取各种分隔符分隔的文本文件。针对csv这种逗号分隔的特定格式,也提供了read_csv函数来进行处理,读取csv文件的用法如下>>>import pandas as pd>>>a = pd.read_csv('test.csv')
和python内置的csv模块相比,pandas的代码非常的简洁,只需要一行就可以搞定了。虽然代码简洁,但是我们要注意的是,根据需要灵活使用其中的参数,常见的参数如下# sep参数指定分隔符,默认为逗号>>> pd.read_csv('test.csv', sep = &#