Python下3种文字识别工具的源码和效果比较

1.pytesseract

import pytesseract
from PIL import Image

im = Image.open(r'C:/Users/YBK/Pictures/35005.jpg')
string = pytesseract.image_to_string(im,lang='chi_sim')
print(string)

2.paddleocr

from paddleocr import PaddleOCR, draw_ocr

ocr = PaddleOCR(use_angle_cls=True, lang="ch") # need to run only once to download and load model into memory
img_path = r'C:/Users/YBK/Pictures/35005.jpg'
result = ocr.ocr(img_path, cls=True)
# for line in result:
#     print(line)
 
# 显示结果
from PIL import Image
image = Image.open(img_path).convert('RGB')
boxes = [detection[0] for line in result for detection in line] # Nested loop added
txts = [detection[1][0] for line in result for detection in line] # Nested loop added
scores = [detection[1][1] for line in result for detection in line] # Nested loop added
# im_show = draw_ocr(image, boxes, txts, scores)
# im_show = Image.fromarray(im_show)
# im_show.save('test.jpg')
for tt in txts:
    print(tt)

3.某个易语言程序的接口

from urllib import request, parse
import requests
import base64
import json
from urllib.request import urlretrieve
import os
import cv2
import base64
import numpy as np
import time
import pandas as pd
 
 
def image_to_base64(image_mat):
    image = cv2.imencode('.jpg', image_mat)[1]
    image_code = str(base64.b64encode(image), 'utf-8')
    return image_code
 
if __name__ == '__main__':
    url = "http://127.0.0.1:19811/ocr_data_2"
    testImgp = r'C:/Users/YBK/Pictures/35005.jpg'
    img = cv2.imread(testImgp)
    headers = {'content-type': "application/json"}
 
    data = image_to_base64(img)
   
    response = requests.post(url, data = data, headers=headers)
    
    if response:
        result = json.loads(str(response.content, 'utf-8'))
        dic = result['PaddleOCR']
        i = 0
        while i < len(dic):
            tt = dic[i]['ttxt']
            print(tt)
            i = i + 1

小学常用3500字顺口溜 pytesseract

中华历史 岁月五千 文武成康 治乱存亡 渊源流长 古往今来 雪雨风霜

王侯将相 公卿大夫 敢于担当 塞外边疆 秦皇汉武 汉刘曹魏 李唐赵宋

功成名就 三番五次 征战讨伐 改朝换代 睁瞬间 辉煌灿烂 耳闻目见

记忆忘却 惊险刺激 孤单寂寞 喜怒哀乐 悲欢离合 休福灾咎 胜败输赢

阴晴圆缺 福祸旦夕 和谐融洽 散虑遥 烦闷

大小多少 远近高低 高矮胖瘦 长短粗细 日月水火 山石田士 男女老少

先来后到 名其妙 护卫保镖 穿衣戴帽 众多寡少 幼稚孩童 活泼可爱

士农工商 兵学官警 描图绘画 飞黄腾达 飞鸟走兽 游鱼虫 江河湖海

之乎者也 爷娘姑舅 端庄秀丽 撑持维系 操持把握 落花流水 刮风下雨

东南西北 年月日时 钟表铃 宾客朋友 善始令终 紧迫缓冲 队伍军团

迅速疾快 挑担抬 酒饭袋 熬汤饭 张灯结彩 观望视看 佛道神仙

魔鬼妖 弃恶从善 岁时季节 刚强猛烈 夫妻双对 泣涕泪 前进后退

成双结对 率部突围 治乱安危 权势名位 阅历趣味 开花结果 春华秋实

山涉水 翻山越岭 千山万水 思想意念 举步维艰 济世度人 出生入死

树木森林 困难容易 前后左右 孔很太甚 暂且俄而 蒙蔽塞堵截

斩钉截铁 是其也 君王霸主 奔奋猛突 铺盖被 辉煌灿烂 辞迎新

言谈论说 舰艇船舶 辞别再见 战士格斗 跨越冲 治病疗伤 医生护士

恐惧怕 读念讽诵 站立卧倒 只言片语 接连继续 决断嫌疑 功课作业

小学常用3500字顺口溜 易语言

中华历史 月五千 文武成康 治乱存亡 渊源流长 古往今来 雪雨风霜

王侯将相 公卿大夫 敢于担当 塞外边疆 秦皇汉武 汉刘曹魏 李唐赵宋

功成名就 三番五次 征战讨伐 改朝换代 睁眨瞬间 辉煌灿烂 耳闻目见

阴晴圆缺 福祸旦夕 和谐融洽 散虑逍遥 烦闷懊恼

大小多少 远近高低 高矮胖瘦 长短粗细 日月水火 山石田王 男女老少

先来后到 莫名其妙 护卫保镖 穿衣戴帽 众多寡少 幼稚孩童 活泼可爱

士农工商 兵学官警 描图绘画 飞黄腾达 飞鸟走兽 游鱼爬虫 江河湖海

之乎者也 爷娘姑舅 端庄秀丽 撑持维系 操持把握 落花流水 刮风下雨

东南西北 年月日时 钟表铃铛 宾客朋友 善始令终 紧缓冲 队伍军团

迅速疾快 挑担扛抬 酒囊饭袋 熬汤闷饭 张灯结彩 观望视看 佛道神仙

魔鬼妖孽 弃恶从善 岁时季节 刚强猛烈 夫妻双对 哭泣涕泪 前进后退

成双结对 率部突围 治乱安危 权势名位 阅历趣味 开花结果 春华秋实

跋山涉水 翻山越岭 千山万水 思想意念 举步维艰 济世度人 出生入死

树木森林 困难容易 前后左右 孔很太甚 暂且俄而 蒙蔽壅瞒 壅塞堵截

斩钉截铁 是乃其也 君王霸主 奔奋猛突 铺盖被褥 辉煌灿烂 辞旧迎新

言谈论说 舰艇船舶 辞别再见 战士格斗 跨越冲闯 治病疗伤 医生护士

恐惧畏怕 读念讽诵 站立卧倒 只言片语 接连继续 决断嫌疑 功课作业

小学常用3500字顺口溜 PaddleOCR

中华历史 岁月五千 文武成康 治乱存亡 渊源流长 古往今来 雪雨风霜

王侯将相 公卿大夫 敢于担当 塞外边疆 秦皇汉武 汉刘曹魏 李唐赵宋

功成名就 三番五次 征战讨伐 改朝换代 眩瞬间 辉煌灿烂 耳闻目见

阴晴圆缺 福祸旦夕 和谐融洽 散虑逍遥 烦闷快恼

大小多少 远近高低 高矮胖瘦 长短粗细 日月水火 山石田土 男女老少

先来后到 莫名其妙 护卫保镖 穿衣戴帽 众多寡少 幼稚孩童 活泼可爱

士农工商 兵学官警 描图绘画 飞黄腾达 飞鸟走兽 游鱼爬虫 江河湖海

之乎者也 爷娘姑舅 端庄秀丽 撑持维系 操持把握 落花流水 刮风下雨

东南西北 年月日时 钟表铃铛 宾客朋友 善始令终 紧迫缓冲 队伍军团

迅速疾快 挑担扛抬 酒囊饭袋 熬汤闷饭 张灯结彩 观望视看 佛道神仙

魔鬼妖孽 弃恶从善 岁时季节 刚强猛烈 夫妻双对 哭泣泪 前进后退

成双结对 率部突围 治乱安危 权势名位 阅历趣味 开花结果 春华秋实

X山涉水 翻山越岭 千山万水 思想意念 举步维艰 济世度人 出生入死

树木森林 困难容易 前后左右 孔很太甚 暂X俄而 蒙蔽雍瞒 雍塞堵截

斩钉截铁 是乃其也 君王霸主 奔奋猛突 铺盖被褥 辉煌灿烂 辞旧迎新

言谈论说 舰艇船舶 辞别再见 战士格斗 跨越冲闯 治病疗伤 医生护士

恐惧畏怕 读念讽诵 站立卧倒 只言片语 接连继续 决断嫌疑 功课作业

从识别的准确率上看,易语言的最好,然后是paddleocr,但pytesseract能识别出空格。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值