Pandas读写文件
来源:https://realpython.com/pandas-read-write-files/
翻译:老齐
阅读本文需要12分钟
本书计划发行时间:2020年初
第三部分
★在昨天发布的第二部分中,介绍了如何处理CSV和JSON类型的文件,本部分接续介绍其他类型文件的读写方法。
”
HTML文件
HTML是一个纯文本文件,它使用超文本标记符,从而帮助浏览器呈现网页。HTML文件的扩展名是.html
和.htm
。你需要安装一个类似lxml
或 html5lib
的HTML解析包,才能使用HTML文件:
$pip install lxml html5lib
你还可以使用Conda安装相同的包:
$ conda install lxml html5lib
一旦有了这些库,就可以使用.to_html()
将DataFrame
的内容保存为HTML文件:
df = pd.DataFrame(data=data).Tdf.to_html('data.html')
这段代码生成了文件 data.html
。
但是,请注意,还没有获得整个网页,你刚刚以HTML格式输出了与df
对应的数据。
如果不提供可选参数buf
, .to_html()
就不会创建文件,buf
表示要写入的缓冲区。如果不使用此参数,代码将返回一个字符串,就像.to_csv()
和.to_json()
的代码所做的那样。
以下是其他的一些可选参数:
header
决定是否保存列名。index
决定是否保存索引。classes
指定CSS样式表。render_links
指定是否将URLs转换为HTML链接。table_id
将CSSid
分配给table
。escape
决定是否将字符<
,>
和&
转换为HTML认可的字符串。
你可以通过设置这些参数,生成具有不同特点的文件。
可以使用 read_html()
从适当的HTML文件读取数据,并返回DataFrame
对象:
>>> df = pd.read_html('data.html', index_col=0, parse_dates=['IND_DAY'])
这与读取CSV文件时的做法非常相似。还有一些参数可以帮助处理日期、缺失值、精度、编码、HTML解析等等。
Excel文件
你已经学会了如何用Pandas读写Excel文件。不过,还有几项选择值得考虑。例如,当你使用.to_excel()
时,可以使用参数sheet_name
指定目标工作表的名称:
>>> df = pd.DataFrame(data=data).T>>> df.to_excel('data.xlsx', sheet_name='COUNTRIES')
在这里,你将一个名为 COUNTRIES
的工作表保存为文件data.xlsx
,这个工作表里存储了数据。字符串'data.xlsx'
是参数 excel_writer
的值,excel