import pdfplumber #解析pdf文件,尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件
def parse(pdf):
targets = [] #保存结果,
for page in pdf.pages:
words = page.extract_words(x_tolerance=5)
for word in words:
targets.append(word['text'])
return targets
#print(targets)
# 保存
def save(targets, out_path, sheet_name='targets'):
wb = Workbook()
ws = wb.active
ws.title = sheet_name
ws.append(targets)
print(ws)
#ws.append(list(targets.values()))
wb.save(out_path)
# 主函数入口
if __name__ == "__main__":
print(__doc__)
path = r'/Users/apple/Documents/ST/python/简历.pdf'
out_path = r'/Users/apple/Documents/ST/python/简历.xlsx'
pdf = pdfplumber.open(path)
targets = parse(pdf)
save(targets, out_path)
print('运行结束!')
这个代码抽取简历所有内容,放在Excel的第一行
认识你是我们的缘分,同学,等等,学习人工智能,记得关注我。
微信扫一扫
关注该公众号
《湾区人工智能》
回复《人生苦短,我用Python》便可以获取下面的超高清电子书和代码