工作需要要用python解析各种文档,我敬爱的manager AKA Byrd推荐给了我textract。
“Textract is the most ridiculous library that I've ever used before”,其实它还是挺强大的,只是对于pdf不太友好。
-----------------------------------------------------------------------------------------------------------------
第一个坑:
用 pip install textract 安装好这个库之后
import textract
textract.process('a.pdf', method='pdfminer')
报错:textract.exceptions.ShellError: The command `pdf2txt.py a.pdf` failed with exit code 127
Google了一会才知道原来安装textract的时候并不会自动帮你安装pdfminer,需要手动安装pdfminer。
然后又google到:
https://github.com/euske/pdfminer ,里面有这样一句话
原来是因为我用的是python3.x,所以得用pdfminer.six
所以 pip install pdfminer.six
第一个坑到这里就踩完了。
第二个坑:
再次运行代码,这次出现了这样的报错信息
UnboundLocalError: local va