import os import shutil import pytesseract from PIL import Image # 设置Tesseract可执行文件的路径 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' def recognize_and_save_images(folder_path, output_folder, text_folder, no_text_folder): # 遍历文件夹中的所有文件 for filename in os.listdir(folder_path): if filename.endswith(".jpg") or filename.endswith(".png"): # 打开图片 image_path = os.path.join(folder_path, filename) image = Image.open(image_path) # 使用Tesseract进行文字识别 text = pytesseract.image_to_string(image) # 根据文字数量将图片分类 if len(text.split()) >= 20: # 设置一个阈值(识别到的单词数量) output_folder_path = os.path.join(output_folder, text_folder) else: output_folder_path = os.path.join(output_folder, no_text_folder) if not os.path.exists(output_folder_path): os.makedirs(output_folder_path) # 移动图片到相应的文件夹中 output_file = os.path.join(output_folder_path, filename) shutil.move(image_path, output_file) print("Recognized text:", text) print("Moved image:", filename, "to folder:", text_folder if len(text.split()) >= 5 else no_text_folder) # 在此处指定你希望进行识别的图片文件夹路径 folder_path = "F:\QLDownload\Screenshots" # 在此处指定输出文件夹路径 output_folder = "F:\QLDownload\Screenshots" # 指定存储有文字和没有或少文字图片的文件夹名称 text_folder = "有文字" no_text_folder = "无文字或少文字" # 调用识别和存储图片函数 recognize_and_save_images(folder_path, output_folder, text_folder, no_text_folder)
图片识别并移动到有字和无字文件中
最新推荐文章于 2024-10-30 17:52:20 发布