1 使用ABBYYFineReaderPortable将PDF文档转化为word文档。
2 利用python将word文档按照段落写入excel中,方便后续的处理。
import xlsxwriter
from docx import Document
document = Document('F:\研究生\研二上\兽药数据\高效知识图谱构建\教辅资料\Plumb’s Veterinary Drug Handbook.docx')
workbook = xlsxwriter.Workbook('Plumb’s.xlsx') # 创建工作簿
worksheet = workbook.add_worksheet() # 创建工作表
i = 0
for paragraph in document.paragraphs:
row = 'A' + str(i)
worksheet.write(row, paragraph.text)
i += 1
workbook.close()
ps from docx import Document报错的问题出现错误,安装python-docx即可。