前言
最近读了一些电子书,在整理相关读书笔记时遇到了些小麻烦,由于书籍是扫描版,相关的文字内容只能以图片形式整理到笔记中,不便于阅读与查询,于是进行了不少识别图片中的文字的尝试,发现通过文字识别的工具Tesseract并结合Python,能够达到相应的目的,在此分享给大家。
准备工作
我这里的工作环境如下:
- Windows 10 64位
- Python 3.8.5
基于此环境下载相应的工具包,并进行图像文字识别
1.下载并安装工具安装包
Tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/