你要处理的大多数文字都是比较干净的、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。
通常,格式规范的文字具有以下特点:
- 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
- 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
- 排列整齐,没有歪歪斜斜的字
- 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘
下图是一张带有英文文字的图片
运行下面的命令来调用Tesseract,读取文件并把结果写到一个文本文件中:
$tesseract text.tiff textoutput | cat textoutput.txt