python爬虫第5天 读取文档

本章重点介绍文档处理的相关内容,包括把文件下载到文件夹里,以及读取文档并提取数 据。我们还会介绍文档的不同编码类型,让程序可以读取非英文的 HTML 页面



纯文本

beautifulsoup()只对HTML文件有作用

一个常见的误解是 UTF-8 把所有字符都存储成 8 位。其实“8 位”只是显示一个字符需要的最小位数,而不是最大位数


读取CSV文件 

对于在线的文件

• 手动把 CSV 文件下载到本机,然后用 Python 定位文件位置; 

• 写 Python 程序下载文件,读取之后再把源文件删除; 

• 从网上直接把文件读成一个字符串,然后转换成一个 StringIO 对象,使它具有文件的 属性


csv.DictReader 会返回把 CSV 文件每一行转换成 Python 的字典对象返回,而不是列表对 象,并把字段列表保存在变量 dictReader.fieldnames 里,字段列表同时作为字典对象的键


PDF

PDFMiner3K 就是一个非常好用的库



微软Word和.docx

想读取 Microsoft Office 文件的正文内容,我们需要自己动手找方法









  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值