前言
工作需要,有大量图片上的文字需要识别(比如英文小说)。所以打算安装一个Tesseract,然后进行一点orc方面的开发。
docker版tesseract-ocr
通过使用docker镜像,可以省去安装环节,轻松的实现ocr。
单张图片识别,直接启动镜像,将图片文件夹挂载到容器内,调用entrypoint命令识别。
# 拉镜像
docker pull jitesoft/tesseract-ocr:20.04
# 直接指定图片地址,进行识别
docker run -v ~/文档/_04dockervolume/anaconda3/notebooks:/tmp jitesoft/tesseract-ocr:20.04 /tmp/1.png stdout
如果有大量图片需要处理,可以:
cd ~/文档/_04dockervolume/anaconda3
#创建一个init.sh,以便在镜像中执行,这里如果多层文件夹的话,改为函数,递归调用即可。
cat <<EOF >