中文分词分析之PDF批量转化为文本
本篇文章主要是介绍批量将PDF文件转化为文本。这是中文分词分析的前奏部分。
Python解析PDF文件需要的模块包是pdfminer,可以通过pip install pdfminer进行安装。
下面主要介绍解析的主要步骤
1、具体需要的模块导入
#!/usr/bin/python
#-*- coding: utf-8 -*-
import os
import sys
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtract