引
最近要倒腾一下文字识别,直接上手iOS的识别遇到了一些困难,于是决定先在Mac上做一做,会比较简单。
有一个经常听到的词汇叫做OCR,OCR是什么呢?Optical Character Recognition,光学字符识别,是图片文字识别的官方学术名称。
要做这么一个听起来比较复杂的事情,如果有现成的开源框架那是最好的,如果你大致了解一下,就会发现开源界Tesseract是用的最多的,也是大多数接触这个领域的人最开始拿来练手的东西。简单介绍一下Tesseract的历史,其最早由HP实验室在1985年研发,10年后,也就是1995年已经是业内最准确的识别引擎之一了,但是HP后来放弃了OCR业务,不过好消息是后来HP决定反正不用,不如开源出来,所以2005年,又是10年后,Tesseract开源了,并且委托Google进行改进、优化的工作。
所以现在一说Tesseract往往看到的都是说Google的框架,其实还有这么一段历史在其中。
准备工作
要在Mac下用Tesseract,肯定要进行安装,安装Tesseract之前,我们需要做一些准备工作。
Xcode Command Line Tool
首先安装Xcode Command Line Tool,Command Line Tool是Xcode中的一款工具,从App Store下载Xcode之后,默认没有安装Command Line Tool,安装之后就可以在终端命令行中运行一些C程序。
安装方法很简单,打开终端输入:xcode-select –install,会弹出确认窗口:
直接点击安装就可以了,一段时间之后就安装好了,有进度条显示,十几分钟吧。检查是否安装成功的方法是再次在终端输入上述命令,会提示已经安装过了,或者在Xcode新建工程,选择macOS下,会多出一个Command Line Tool: