目录
多线程练习
question1.多线程实现批量 PDF 转换器工具
参考资料:
1). pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。
2). python-docx 模块是读取和写入 word 文档的工具.
代码实现:
from io import StringIO
import os
from docx import Document
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
import threading
# 多线程实现批量 PDF 转换器工具
# 提取PDF文件中的文字
def read_from_pdf(file_path):
with open(file_path, 'rb') as file:
resource_manager = PDFResourceManager()
return_str = StringIO()
lap_params = LAParams()
device = TextConverter(resource_manager, return_str,
laparams=lap_params)
process_pdf(resource_manager, device, file)
device.close()
content = return_str.getvalue()
return_str.close()
return content
def save_text_to_word(content, file_path):
doc = Document()
for line in content.split('\n'):
paragraph = doc.add_paragraph()
paragraph.add_run