python提取图片文字_怎样用Python提取图片中的文字

最新推荐文章于 2024-08-03 15:35:50 发布

weixin_39729262

最新推荐文章于 2024-08-03 15:35:50 发布

阅读量2.1k

点赞数

文章标签： python提取图片文字

点击蓝字关注△ 回复“1024”领取福利大礼包

有时候在爬取数据的时候，需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中，Python一直都是非常出色的语言。有两个库非常流行的库：Pillow和Tesseract。

Pillow 算不上是图像处理功能最全的库，但是它拥有你需要使用的全部功能，除非你要用 Python 重写一个 Photoshop 或进行更加复杂的研究。它也是一个文档健全且十分易用的库。

Tesseract 是一个 OCR 库，目前由 Google 赞助（Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR系统。

除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体，也可以识别出任何 Unicode 字符。

Tesseract是一个 Python 的命令行工具,不是通过 import语句导入的库。安装之后，要用要用tesseract命令在Python的外面运行

今天使用Tesseract来实现一个提取图片中信息的程序。下面这张图片，就是我们需要读取的对象：

安装过程略过，直接看代码:import subprocess

p = subprocess.Popen(["tesseract", "page.png", "page"], stdout=subprocess.PIPE,stderr=subprocess.PIPE)

p.wait()

f = open("page.txt","r")

print(f.read())

f.close()

运行这个程序，应该会输出图片中的文字信息。但是，当文字出现在彩色封面上时，结果就不那么完美了。你可以用 Pillow 库挑选图片进行清理，但是如果想把文字加工成普通人可以看懂的效果，还需要花很多时间去处理。这是只是一个简单的实例。

如果觉得内容还不错，分享给更多朋友，一起提升编程技能。

weixin_39729262

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。