工具:Tessract+opencv+python+python-dox
代码:
原始图片:
import os from PIL import Image import cv2 import pytesseract from docx import Document from docx.shared import Inches document=Document()#启动word文档 document.add_heading("图文转文字",0)#加个标题 path=os.getcwd().replace('\\','/')+"/word_c.png"#图片地址 P_TO_W=pytesseract.image_to_string(Image.open(path),lang='chi_sim')#调用tesseract库,使用中文 document.add_paragraph(P_TO_W)#插入转换的文字 document.add_picture("word_c.png",width=Inches(6))#插入原始图片 document.add_page_break() document.save("TO_WORD.docx")#保存word
使用tesseract库并不能完全的识别中文文字,需要提高图片的分辨度和库语言词汇的数量。
生成的word的文档: