import pdfplumber # 导入pdf解析模块
def pdf2txt(file_name):
p = pdfplumber.open(file_name +'.pdf')
page_num = len(p.pages) # 读取文件的总数
with pdfplumber.open(file_name +'.pdf') as pdf: # 用pdf解析器读取pdf文件,并对象化为pdf
for i in range(page_num):
page = pdf.pages[i] # 读取每一页内容,格式仍为pdf
text = page.extract_text() # 用page.extract_text()方法将读取到的每一页内容转换成TXT文本格式,这个函数足够强大。
if text != None:
f = open(file_name+ '2' +'.txt', 'a', encoding = 'utf-8') # 创建一个空的文本文档,并把文件名定义为和pdf文件一样的
f.write(text) # 将读取到的内容写入文本文档
print(file_name + ' ' + str(i+1) + '/' + str(page_num) +'页读写完成.') # 每读完一页,打印读取信息。
f.close()
file_name = input('输入你要解析的PDF文件名称(确保该文件在Pyhon根目录下):')
pdf2txt(file_name)