目的
本文主要希望在ubuntu系统下实现 一键OCR识别图片截图中的内容使之转换为文本可以复制粘贴
主要思路
- 利用截图软件gnome-screenshot 进行截取需要被文字识别的图片;
- 利用文字识别OCR软件tesseract,进行识别
- 将结果输出,复制到文件和剪切板
本文附视频教程:ubuntu linux 下实现一键截屏截图OCR文字识别_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
步骤1:安装依赖软件
- 安装tesseract
tesseract是一个开源的OCR引擎,最初是由惠普公司开发用来作为其平板扫描仪的OCR引擎,2005年惠普将其开源出来,之后google接手负责维护。目前稳定的版本是3.0。4.0版本加入了基于LSTM的神经网络技术,中文字符识别准确率有所提高。
- 添加源
sudo add-apt-repository ppa:alex-p/tesseract-ocr
- 更新源
sudo apt-get update
- 安装
sudo apt-get install tesseract-ocr
- 安装中文字库
tesseract支持60多种语言的识别不同,使用之前需要先下载对应语言的字库,下载地址:https://github.com/tes