图片处理的相关操作

YingJingh

已于 2022-06-22 17:17:28 修改

阅读量1k

点赞数

分类专栏： python 工作需要文章标签： python 开发语言

于 2022-06-22 17:08:17 首次发布

本文链接：https://blog.csdn.net/Hekena/article/details/125413115

版权

python 同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

工作需要

34 篇文章 0 订阅

订阅专栏

上一节中涉及到了PDF文件的处理操作，

但是PDF文件部分是扫描生成的，网上给出的解决方法有一些。

但是，我觉得，扫描全能王挺好用的。

https://www.camscanner.com/pdftoword

git

图片的识别操作

#图片文字识别
#https://zhuanlan.zhihu.com/p/349621620
import easyocr
# 创建reader对象，指定语言为简写中文
# 该命令只需要运行一次就可以将model加载到内存中
reader = easyocr.Reader(['ch_sim','en'])
# 读取图像
result = reader.readtext('img.png',detail=False)

#字母识别
import ddddocr

ocr = ddddocr.DdddOcr()
with open('shibie.png', 'rb') as f:
    img_bytes = f.read()
res = ocr.classification(img_bytes)

print(res)

#滑块识别
import ddddocr

det = ddddocr.DdddOcr(det=False, ocr=False)

with open('hycdn.png', 'rb') as f:
    target_bytes = f.read()

with open('background.png', 'rb') as f:
    background_bytes = f.read()

res = det.slide_match(target_bytes, background_bytes, simple_target=True)

print(res)

#点选验证码识别
det = ddddocr.DdddOcr(det=True)

with open("dianxuan.png", 'rb') as f:
        image = f.read()

poses = det.detection(image)
print(poses)
im = cv2.imread("dianxuan.png")
#勾选汉字
for box in poses:
        x1, y1, x2, y2 = box
        im = cv2.rectangle(im, (x1, y1), (x2, y2), color=(0, 0, 255), thickness=2)

cv2.imwrite("dianxuan.png", im)

文件归档操作


#文件归档，将PDF文件归到一个文件夹下
import os
import re
import shutil
file_list=os.listdir(r'../标准文本挖掘')#返回的是当前文件夹下文件的目录
# os.walk()#可以返回更深的文件目录下的文件
print(file_list)
os.makedirs('../标准文本挖掘/new_pdf',exist_ok=True)
for fname in file_list:
    ftype=re.findall('.*\.(.*)',fname)#返回的是一个列表['docx']
    if ftype[0]=='pdf':
        print(fname)
        oldpath=os.path.join('../标准文本挖掘',fname)
        newpath=os.path.join('../标准文本挖掘/new_pdf/',fname)
        shutil.move(oldpath,newpath)

菜鸟一枚 -----------------------------------------------------------------------------------------------

YingJingh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
图片处理的相关操作

上一节中涉及到了PDF文件的处理操作，但是PDF文件部分是扫描生成的，网上给出的解决方法有一些。但是，我觉得，扫描全能王挺好用的。https://www.camscanner.com/pdftoword菜鸟一枚 -----------------------------------------------------------------------------------------------......
复制链接

扫一扫