当你想批量提取文档(如简历)中的电话和邮箱,可以参考以下代码:
提取结果保存在“resumes.xlsx”表格中。
import os
from win32com import client as wc
import glob
from shutil import copyfile
import os.path,re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFTextExtractionNotAllowed,PDFPage
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from openpyxl import Workbook
'''
step 1:
将doc、docx格式的简历转换为 pdf 文件后复制到 pdfPath 文件夹下,
将pdf格式的简历直接复制到 pdfPath 文件夹下,
'''
word = wc.Dispatch('Word.Application')
print('当前工作路径:' + os.getcwd())
# 处理路径
FolderPath = os.ge