python图片文本识别的简单实现

最新推荐文章于 2024-09-21 08:14:22 发布

mydriverc2

最新推荐文章于 2024-09-21 08:14:22 发布

阅读量1.8w

点赞数

分类专栏： python 网络 Web类

网络同时被 3 个专栏收录

103 篇文章 1 订阅

订阅专栏

90 篇文章 1 订阅

订阅专栏

63 篇文章 2 订阅

订阅专栏

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html

python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议使用pythonxy，这个工具的介绍可参考baidu。

pytesser是谷歌OCR开源项目的一个模块，在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在Python中调用pytesser模块时，pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下：

首先，安装Python2.7版本，这个版本比较稳定，建议使用这个版本。

其次，安装pythoncv。

然后，安装PIL工具，下载的地址是： http://www.pythonware.com/products/pil/，pytesser的使用需要PIL库的支持。

接着下载pytesser，下载的地址是： http://code.google.com/p/pytesser/downloads/list

最后，将pytesser解压，这个是免安装的，可以将解压后的文件cut到Python安装目录的Lib\site-packages下直接使用，比如我的安装目录是：C:\Python27\Lib\site-packages，同时把这个目录添加到环境变量之中。

完成以上步骤之后，就可以编写图片文本识别的Python脚本了。参考脚本如下：

from pytesser import *

import ImageEnhance

image = Image.open('D:\\xiehao\\workspace\\python\\5.png')

#使用ImageEnhance可以增强图片的识别率

enhancer = ImageEnhance.Contrast(image)

image_enhancer = enhancer.enhance(4)

print image_to_string(image_enhancer)

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识

下载地址：http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=

下载之后进行安装，不再演示。

在tesseract目录下，有个tesseract.exe文件，主要调用这个执行文件，用cmd运行到这个目录下，在这个目录下同时放置一张需要识别的图片，这里是123.jpg

然后运行:tesseract 123.jpg result

会把123.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好，要下载一个中文包：http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

然后找到tessdata目录，把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

mydriverc2 CSDN认证博客专家 CSDN认证企业博客

码龄13年

52: 原创

2万+: 周排名

186万+: 总排名

388万+: 访问

: 等级

3万+: 积分

345: 粉丝

578: 获赞

123: 评论

2807: 收藏

私信

关注

热门文章

分类专栏

游戏类 32篇
架构 42篇
移动类 37篇
金融类 28篇
信息保存 53篇
Web类 90篇
Lua 40篇
分布式 22篇
项目管理 45篇
苹果类 11篇
数据库类 95篇
框架与设计 82篇
ETL与报表 31篇
主机类 24篇
语言脚本类 90篇
中间件、总线 18篇
日常类 12篇
语言基础 251篇
网络 103篇
设计模式 22篇
MySql 151篇
Linux/Unix 170篇
IDE 15篇
算法 35篇
python 63篇
JAVA 14篇

最新评论

光猫+路由器如何映射端口
sinat_15676021: 我直接电信人工客服，人家说ipv4资源紧张，叫我办理专线服务，这个要另外联系安装，线上都没有渠道。
Centos 8.1与Winwods 10 双系统(图解，引导修复)
cocosum: 这不是我20年还是19年的时候写的博客，转载贴上，谢谢：https://blog.csdn.net/qq_40058321/article/details/105743701
shell中的数组作为参数传递
宁静致远_jin: 解决了，感谢楼主思路：文章上半部分比较符合我的要求，稍微修改下就可以传入多个数组并保持结构 [code=plain] #!/bin/bash arr=($(echo "$1")) for i in ${arr[@]}; do echo $i done echo "arr: ${arr[0]}" arr=($(expr "$2")) for i in ${arr[*]}; do echo $i done echo "arr2: ${arr[2]}" [/code] 调用时，使用sh conmutil2.sh "${regions[*]}" "${home[*]}"即可。
shell中的数组作为参数传递
宁静致远_jin: u are right! and i have another method to receive one arr by chatgpt: [code=plain] #!/bin/bash # 接收参数数组 params=("$@") # 输出参数数组 echo "Received parameters:" for param in "${params[@]}"; do echo "- $param" done [/code] but i still have a question: if i wanna input multiple arr when i invoking shell script,the array structual still be destroyed. it confuses me have long time.could u please give me some advices? thank you so much.
关于GBK中的英文字符占用一个字节还是两个字节的问题
Cs20140905: 安卓平台下搜狗输入法不可以输入全角英文符号

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。