pandas 读取某一单元格的值_Pandas读写文件(3)

Pandas读写文件

来源:https://realpython.com/pandas-read-write-files/

翻译:老齐

阅读本文需要12分钟

88fedb83c21afdb51f39786f686a6f55.png

本书计划发行时间:2020年初

第三部分

在昨天发布的第二部分中,介绍了如何处理CSV和JSON类型的文件,本部分接续介绍其他类型文件的读写方法。

HTML文件

HTML是一个纯文本文件,它使用超文本标记符,从而帮助浏览器呈现网页。HTML文件的扩展名是.html.htm。你需要安装一个类似lxmlhtml5lib 的HTML解析包,才能使用HTML文件:

$pip install lxml html5lib

你还可以使用Conda安装相同的包:

$ conda install lxml html5lib

一旦有了这些库,就可以使用.to_html()DataFrame的内容保存为HTML文件:

df = pd.DataFrame(data=data).Tdf.to_html('data.html')

这段代码生成了文件 data.html

但是,请注意,还没有获得整个网页,你刚刚以HTML格式输出了与df 对应的数据。

如果不提供可选参数buf.to_html()就不会创建文件,buf表示要写入的缓冲区。如果不使用此参数,代码将返回一个字符串,就像.to_csv().to_json()的代码所做的那样。

以下是其他的一些可选参数:

  • header 决定是否保存列名。
  • index决定是否保存索引。
  • classes指定CSS样式表。
  • render_links 指定是否将URLs转换为HTML链接。
  • table_id将CSSid分配给table
  • escape决定是否将字符<, >& 转换为HTML认可的字符串。

你可以通过设置这些参数,生成具有不同特点的文件。

可以使用 read_html()从适当的HTML文件读取数据,并返回DataFrame 对象:

>>> df = pd.read_html('data.html', index_col=0, parse_dates=['IND_DAY'])

这与读取CSV文件时的做法非常相似。还有一些参数可以帮助处理日期、缺失值、精度、编码、HTML解析等等。

Excel文件

你已经学会了如何用Pandas读写Excel文件。不过,还有几项选择值得考虑。例如,当你使用.to_excel()时,可以使用参数sheet_name指定目标工作表的名称:

>>> df = pd.DataFrame(data=data).T>>> df.to_excel('data.xlsx', sheet_name='COUNTRIES')

在这里,你将一个名为 COUNTRIES的工作表保存为文件data.xlsx,这个工作表里存储了数据。字符串'data.xlsx'是参数 excel_writer的值,excel

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值