上一节中涉及到了PDF文件的处理操作,
但是PDF文件部分是扫描生成的,网上给出的解决方法有一些。
但是,我觉得,扫描全能王挺好用的。
https://www.camscanner.com/pdftoword
图片的识别操作
#图片文字识别 #https://zhuanlan.zhihu.com/p/349621620 import easyocr # 创建reader对象,指定语言为简写中文 # 该命令只需要运行一次就可以将model加载到内存中 reader = easyocr.Reader(['ch_sim','en']) # 读取图像 result = reader.readtext('img.png',detail=False)
#字母识别 import ddddocr ocr = ddddocr.DdddOcr() with open('shibie.png', 'rb') as f: img_bytes = f.read() res = ocr.classification(img_bytes) print(res)
#滑块识别 import ddddocr det = ddddocr.DdddOcr(det=False, ocr=False) with open('hycdn.png', 'rb') as f: target_bytes = f.read() with open('background.png', 'rb') as f: background_bytes = f.read() res = det.slide_match(target_bytes, background_bytes, simple_target=True) print(res)
#点选验证码识别 det = ddddocr.DdddOcr(det=True) with open("dianxuan.png", 'rb') as f: image = f.read() poses = det.detection(image) print(poses) im = cv2.imread("dianxuan.png") #勾选汉字 for box in poses: x1, y1, x2, y2 = box im = cv2.rectangle(im, (x1, y1), (x2, y2), color=(0, 0, 255), thickness=2) cv2.imwrite("dianxuan.png", im)
文件归档操作
#文件归档,将PDF文件归到一个文件夹下 import os import re import shutil file_list=os.listdir(r'../标准文本挖掘')#返回的是当前文件夹下文件的目录 # os.walk()#可以返回更深的文件目录下的文件 print(file_list) os.makedirs('../标准文本挖掘/new_pdf',exist_ok=True) for fname in file_list: ftype=re.findall('.*\.(.*)',fname)#返回的是一个列表['docx'] if ftype[0]=='pdf': print(fname) oldpath=os.path.join('../标准文本挖掘',fname) newpath=os.path.join('../标准文本挖掘/new_pdf/',fname) shutil.move(oldpath,newpath)
菜鸟一枚 -----------------------------------------------------------------------------------------------