Tesseract-OCR+Python+pytesseract实现图片转文字

背景

最近朋友在网上做数据爬取的时候遇到一个反爬虫技术,某网站将部分文字转化为表情图片进行展示,我们通过html无法爬取到完整的文字内容,取而代之的是一些特殊的空字符,让人很是郁闷。后面我想到了能不能通过OCR(Optical Character Recognition)技术来破解这个问题。网上查了一些资料发现这个的确是简单可行的,话不多说,我给大家一步一步演示如何使用OCR完成图片转文字

安装Tesseract-OCR

运行以下两条命令在linux(Red Hat)安装Tesseract-OCR,其他操作系统安装命令请参考https://github.com/tesseract-ocr/tesseract/wiki

yum install tesseract
yum install tesseract-langpack-deu

Tesseract安装完成后运行 tesseract -v 将显示版本信息,意味着安装成功
在这里插入图片描述

Tesseract命令实现图片转文字

我们先准备一个用于带有文字的图片,比如就截取这篇文章的标题
在这里插入图片描述
在图片保存的文件目录中,执行如下命令

tesseract ocr_test.png result
cat result

在这里插入图片描述
我们这儿看到大部分英文都正确识别到了,但是中文完全没有识别到,这是因为我们没有指定中文数据包,我们可以在这个地址中下载中文数据包chi_sim.traineddata, https://github.com/tesserac

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你想了解关于在PyCharm中使用PythonTesseract-OCR吗?要使用Tesseract-OCR,你需要安装tesseract-ocr库和pytesseract库。 首先,你需要安装Tesseract-OCR。根据你的操作系统,你可以通过以下方式安装: 对于Windows用户: 1. 访问https://github.com/UB-Mannheim/tesseract/wiki下载Tesseract-OCR的安装文件。 2. 执行安装文件,并按照安装向导的指示进行安装。 对于Mac用户: 1. 使用Homebrew安装Tesseract-OCR。在终端中输入以下命令: ``` brew install tesseract ``` 2. 安装完成后,Tesseract-OCR会自动添加到你的系统路径中。 对于Linux用户: 1. 打开终端,并根据你的Linux发行版输入以下命令来安装Tesseract-OCR: ``` sudo apt-get install tesseract-ocr ``` 或者 ``` sudo yum install tesseract ``` 安装完成后,确保Tesseract-OCR已正确配置并能在终端中使用。你可以在终端中运行以下命令来测试: ``` tesseract --version ``` 接下来,你需要在PyCharm中安装pytesseract库。可以通过以下步骤完成: 1. 打开PyCharm,并创建一个新的Python项目。 2. 在PyCharm的终端中运行以下命令,安装pytesseract: ``` pip install pytesseract ``` 3. 安装完成后,你可以开始在PyCharm中使用pytesseract库来使用Tesseract-OCR了。 下面是一个简单的示例代码,演示如何在PyCharm中使用pytesseract库进行图像文字识别: ```python import pytesseract from PIL import Image # 打开图像 image = Image.open('image.jpg') # 使用pytesseract进行文字识别 text = pytesseract.image_to_string(image) # 输出识别结果 print(text) ``` 确保将上述示例中的'image.jpg'替换为你要识别的图像路径。 希望这能帮到你!如果你有其他问题,请随时问我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值