ocr初体验，Tesseract，简单的图片验证码识别

最新推荐文章于 2024-07-04 10:25:39 发布

旧人小表弟

最新推荐文章于 2024-07-04 10:25:39 发布

阅读量583

点赞数

分类专栏：网络爬虫文章标签：神经网络 python 人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43040873/article/details/109459687

版权

本文介绍了Tesseract，一个由谷歌赞助的开源OCR库，用于高精度的文字识别。通过安装指南、命令行使用和Python中使用pytesseract库进行图像识别的步骤，展示了其在图片验证码识别上的应用。此外，还提供了训练库下载和Python处理图片像素信息的示例。

摘要由CSDN通过智能技术生成

图片验证码现在已经不怎么多了，打码平台都已经没什么市场了，现在随便一个现成的通杀库都可以识别所有类型的图片验证码，于是乎稍微大一点的网站都会使用滑块、点选这些行为验证来防刷、防爬了！

一般很多图片验证码、各种滑块都是使用Python来训练的，往大了说这些都属于神经网络的事情了，需要大量的数据、算法、机器学习、深度学习知识等，并且如果做好了具有很高的商业价值，因此开源的比较少。

这里介绍一个比较优秀的图像识别开源库：Tesseract

将图片翻译成文字一般被成为光学文字识别（Optical Character Recognition），简写为OCR

Tesseract

Tesseract是一个OCR库，目前由谷歌赞助，Tesseract是目前公认最优秀、最准确的开源OCR库。Tesseract具有很高的识别度，也具有很高的灵活性，他可以通过训练识别任何字体。

安装

Windows系统：

在以下链接下载可执行文件，然后一顿点击下一步安装即可（放在不需要权限的纯英文路径下）：https://github.com/tesseract-ocr/

Linux系统：

可以在以下链接下载源码自行编译：

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

或者在ubuntu下通过以下命令进行安装：

sudo apt install tesseract-ocr

Mac系统：

用Homebrew即可方便安装：

brew install tesseract

设置环境变量：

安装完成后，如果想要在命令行中使用Tesseract，需要设置环境变量

Mac和Linux在安装的时候就默认已经设置好了
Windows下把tesseract.exe所在的路径添加到PATH环境变量中即可

还有一个环境变量也需要设置：训练用的数据文件路径
在环境变量中，添加 ESSDATA_PREFIX=D:\path_to_tesseractdata\teseractdata

在命令行中使用tesseract识别图像

识别图片：

设置好环境变量后，使用命令：tesseract 图片路径文件路径

tesseract a.png a

会识别出a.png中的图片，并且把文字写入到a.txt中。如果不想写入文件直接想显示在终端，不加文件名就可以了

查看tesseract下的一些属性和方法：

tesseract -h

查看当前有哪些识别库：

tesseract --list-langs

最低0.47元/天解锁文章

旧人小表弟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ocr初体验，Tesseract，简单的图片验证码识别

图片验证码现在已经不怎么多了，打码平台都已经没什么市场了，现在随便一个现成的通杀库都可以识别所有类型的图片验证码，于是乎稍微大一点的网站都会使用滑块、点选这些行为验证来防刷、防爬了！一般图片验证码、各种滑块都是使用Python来训练的，往大了说这些都属于神经网络的事情了。pytesseract...
复制链接

扫一扫

专栏目录

旧人小表弟 CSDN认证博客专家 CSDN认证企业博客

码龄6年

66: 原创

40万+: 周排名

162万+: 总排名

6万+: 访问

: 等级

788: 积分

29: 粉丝

43: 获赞

39: 评论

259: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据存储：CSV文件读取和存储
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8002579, 请多输出高质量博客, 帮助更多的人
Python基础：面向对象
m0_72643320: 案例： class Cat: """定义一个猫类""" def __init__(self, new_name, new_age): """在创建完对象之后会自动调用, 它完成对象的初始化的功能""" # self.name = "汤姆" # self.age = 20 self.name = new_name self.age = new_age # 它是一个对象中的属性,在对象中存储,即只要这个对象还存在,那么这个变量就可以使用 # num = 100 # 它是一个局部变量,当这个函数执行完之后,这个变量的空间就没有了,因此其他方法不能使用这个变量 def __str__(self): """返回一个对象的描述信息""" # print(num) return "名字是:%s , 年龄是:%d" % (self.name, self.age) def eat(self): print("%s在吃鱼...." % self.name) def drink(self): print("%s在喝可乐..." % self.name) def introduce(self): # print("名字是:%s, 年龄是:%d" % (汤姆的名字, 汤姆的年龄)) # print("名字是:%s, 年龄是:%d" % (tom.name, tom.age)) print("名字是:%s, 年龄是:%d" % (self.name, self.age)) # 创建了一个对象 tom = Cat("汤姆", 30) print(tom)
Python基础：面向对象
m0_72643320: __str__方法和__init__方法类似，都是一些特殊方法，所以前后都有双下划线，它用来返回对象的字符串表达式如果要把一个类的实例变成str，就需要实现特殊方法__str__() 不使用__str__()方法 class Student(object): def __init__(self,id,name,age): self.id=id self.name=name self.age=age s=Student(111,"Bob",18) print(s) 输出结果：<main.Student object at 0x0362EBF0> 使用__str__()方法 class Student(object): def __init__(self,id,name,age): self.id=id self.name=name self.age=age def __str__(self): return "学号:{}--姓名:{}--年龄{}".format(self.id,self.name,self.age) s=Student(111,"Bob",18) print(s) 输出结果：学号:111–姓名:Bob–年龄18
post入门篇：请求头/响应头、cookie、URL结构/编码、数据编码、winHttpRequest、post分析技巧、伪装IP
m0_72643320: 易语言精易模块中的url编码，其他语言都一样，用相关模块就行了调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, 真, 真)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, 真, 假)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, , 真)) ' %32%30%32%32%2D%30%37%2D%32%38+%32%33%3A%35%39%3A%35%39 调试输出 (编码_URL编码 (“2022-07-28 23:59:59”, , 假)) ' %32%30%32%32%2D%30%37%2D%32%38+%32%33%3A%35%39%3A%35%39 调试输出 (编码_URL编码_JS (“2022-07-28 23:59:59”, 0)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_JS (“2022-07-28 23:59:59”, 1)) ' 2022-07-28%2023%3A59%3A59 调试输出 (编码_URL编码_局部 (“2022-07-28 23:59:59”, 真)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_局部 (“2022-07-28 23:59:59”, 假)) ' 2022-07-28%2023:59:59 调试输出 (编码_URL编码_快速 (到字节集 (“2022-07-28 23:59:59”), 真)) ' 2022-07-28+23%3A59%3A59 调试输出 (编码_URL编码_快速 (到字节集 (“2022-07-28 23:59:59”), 假)) ' 2022-07-28+23%3a59%3a59 时间需要格式化的话：编码_URL编码_JS (时间_格式化 (到时间 (时间1), “yyyy-MM-dd ”, “hh:mm”, 真), 1)
Python爬虫，使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话
狮子座的羊咩咩: 所以vue生成的动态元素到底该怎么获取呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。