本章重点介绍文档处理的相关内容,包括把文件下载到文件夹里,以及读取文档并提取数 据。我们还会介绍文档的不同编码类型,让程序可以读取非英文的 HTML 页面
纯文本
beautifulsoup()只对HTML文件有作用
一个常见的误解是 UTF-8 把所有字符都存储成 8 位。其实“8 位”只是显示一个字符需要的最小位数,而不是最大位数
读取CSV文件
对于在线的文件
• 手动把 CSV 文件下载到本机,然后用 Python 定位文件位置;
• 写 Python 程序下载文件,读取之后再把源文件删除;
• 从网上直接把文件读成一个字符串,然后转换成一个 StringIO 对象,使它具有文件的 属性
csv.DictReader 会返回把 CSV 文件每一行转换成 Python 的字典对象返回,而不是列表对 象,并把字段列表保存在变量 dictReader.fieldnames 里,字段列表同时作为字典对象的键
PDFMiner3K 就是一个非常好用的库
微软Word和.docx
想读取 Microsoft Office 文件的正文内容,我们需要自己动手找方法