将pdf文件转换成txt文件
官网
文档
中英文pdf都可以,而且处理速度很快,一秒可以处理10页左右
python2:
pip install pdfminer
python3:
pip install pdfminer3k
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAl