图片识别并移动到有字和无字文件中

import os
import shutil
import pytesseract
from PIL import Image

# 设置Tesseract可执行文件的路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'


def recognize_and_save_images(folder_path, output_folder, text_folder, no_text_folder):
    # 遍历文件夹中的所有文件
    for filename in os.listdir(folder_path):
        if filename.endswith(".jpg") or filename.endswith(".png"):
            # 打开图片
            image_path = os.path.join(folder_path, filename)
            image = Image.open(image_path)

            # 使用Tesseract进行文字识别
            text = pytesseract.image_to_string(image)

            # 根据文字数量将图片分类
            if len(text.split()) >= 20:  # 设置一个阈值(识别到的单词数量)
                output_folder_path = os.path.join(output_folder, text_folder)
            else:
                output_folder_path = os.path.join(output_folder, no_text_folder)

            if not os.path.exists(output_folder_path):
                os.makedirs(output_folder_path)

            # 移动图片到相应的文件夹中
            output_file = os.path.join(output_folder_path, filename)
            shutil.move(image_path, output_file)

            print("Recognized text:", text)
            print("Moved image:", filename, "to folder:", text_folder if len(text.split()) >= 5 else no_text_folder)


# 在此处指定你希望进行识别的图片文件夹路径
folder_path = "F:\QLDownload\Screenshots"

# 在此处指定输出文件夹路径
output_folder = "F:\QLDownload\Screenshots"

# 指定存储有文字和没有或少文字图片的文件夹名称
text_folder = "有文字"
no_text_folder = "无文字或少文字"

# 调用识别和存储图片函数
recognize_and_save_images(folder_path, output_folder, text_folder, no_text_folder)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值