因为pdf无法复制,所以想到了先将pdf拆分,然后将图片用文字识别将其转换成文字。本文就先实现第一步,pdf的拆分
使用的是Python2
因为主要是根据别人的示例简单的修改而且比较好理解所以直接就上代码了
# -*- coding: UTF-8 -*-
import sys
import PyPDF2
import PythonMagick
import os
import shutil
#接受1个的地址对其进行分解
def breakpdf(filepath,name):
filename=filepath+name
pre=name.split(".")[0]
pdf_im = PyPDF2.PdfFileReader(file(filename, "rb"))
npage = pdf_im.getNumPages()
print('共 %d 页' % npage)
for p in range(npage):
im = PythonMagick.Image(filename + '[' + str(p) +']')
im.density('400')
#输出的文件名
name=pre+'-' + str(p)+ '.jpg'
im.write(name)
move(filepath,pre,name)
def getname():
names=[]
passname