将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。
Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。
除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。
tesseract步骤:
1、brew install tesseract
2、tesseract --version
3、想要 识别中文就要下载简体中文库:chi_sim.traineddata
下载后拖入 /usr/local/share/tessdata文件夹内(Mac)
4、tesseract -l chi_sim saomiao.png result
saomiao.png :识别的图片位置
result:存入的result位置
pytesseract
调百度api识别
1、文字识别百度官方文档
2、python调用
过程:
- 常量APP_ID在百度智能云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。
测试: