PDF 和 Word 文档是二进制文件。
1. PDF 文档
PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名。用于处理PDF的模块是PyPDF2,这个模块是区分大小写的。
1) 从 PDF 提取文本
PyPDF2无法从PDF文档中提取图像,表格或其他媒体,但是可以提取文本。提取过程如下:
a) 以“rb”模式打开PDF文件。
b) 创建PdfFileReader对象。
c) 获取Paged对象。
d) 使用extractText()返回文本的字符串。
示例:
>>> import PyPDF2
>>> pdfFileObj =open('meetingminutes.pdf','rb')
>>> pdfReader =PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
19
>>> pageObj = pdfReader.getPage(0)
>>> pageObj.extractText()
'OOFFFFIICCIIAALL BBOOAARRDD MMIINNUUTTEESS Meeting of\nMarch 7\n, 2014\n \n The Board of Elementary and SecondaryEducation shall provide leadership and \ncreate policies for education thatexpand opportunities for children, empower \nfamilies an