第一部分:图像识别和文字处理概述
本篇文章主要学习通过Python的库来是被和使用在线图片中的文字。当你不想让自己的文字被网络机器人采集时,把文字做成图片放在网页上是常用的办法。在一些联系人通讯录经常可以看到,一个邮箱地址部分或全部转换成图片。人们可能察觉不出明显的差异,但是机器人阅读这些图片时会非常困难,这种方法可以防止多数垃圾邮件发送器轻易地获取你的邮箱地址。
利用这种人类用户可以正常读取但是大多数机器人都没法读取的图片,验证码(CAPTCHA)就出现了。验证码读取的难易程度也大不相同,有些验证码比其他的更加难度,后面我们会介绍这种问题。
但是,验证码不是网络爬虫数据采集时需要进行图像转文字翻译工作的唯一对象。目前,有很多文档都是简单地扫描后直接放到网上,它们和互联网上的很多文档一样都是没法直接使用,尽管他们都“近在眼前”。如果无法图形转为文字,要想使用这些文档的内容,就只能人手工敲了。
将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition OCR)。可以实现OCR的底层库并不多,目前很多库都是使用共同的几个底层OCR库,或者在上面进行定制。这类OCR系统有时会变得非常复杂。