windows安装tesseract-OCR及使用

最新推荐文章于 2025-04-08 14:21:51 发布

ShirleyQueen321

最新推荐文章于 2025-04-08 14:21:51 发布

阅读量1.5w

点赞数 2

分类专栏：爬虫文章标签： tesseract_OCR

本文链接：https://blog.csdn.net/weixin_40569991/article/details/82082173

版权

爬虫专栏收录该内容

18 篇文章

订阅专栏

本文介绍了Python的tesseract OCR库。先需从指定链接下载exe安装文件，安装时可选语言包，之后配置环境变量。配置完成后，可在cmd输入命令查看支持的语言。该库识别成功率较高，可用于识别验证码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

tesseract是Python的一个OCR(光学字符识别)库

首先下载tesseract的exe安装文件 https://github.com/UB-Mannheim/tesseract/wiki

安装时可以将语言包选上（比如不选择的话，默认的只能解析英文）

配置环境变量

配置完成后：

cmd输入命令

输入命令tesseract --list-langs 可以支持的语言：

这是我要识别的图片

这是识别出来的文字：成功率还是很高的

摘 要: 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题疏虫
策略。给出本体语义支持的灾害主题疏虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算
主题语义向量,通过 HTML 位置加权获取网页文本特征向量,并进行主题相关度计算。设计 URL 锚文本主题相关
度计算方法,分析 URL 链接优先度 ,优化疏行队列。选取地震灾害和气象灾害2 个主题进行测试与分析 ,实验结果
表明 ,该策略能有效提高稳定性和疏准率。

关键词: 主题怜虫本体;语义相似度;向量空间模型;相关度计算 ;锚文本

我们可以用来识别验证码