tesseract.js(离线OCR)
概述
仓库地址: https://github.com/naptha/tesseract.js
语言包地址: https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best
离线OCR仓库地址(使用这个): https://github.com/jeromewu/tesseract.js-offline
API参考: https://github.com/naptha/tesseract.js/blob/master/docs/api.md#worker-load-language
使用教程简单参考: https://blog.csdn.net/qq_35077107/article/details/105341115
使用
//第一步:拉取离线版tesseract.js-offline
git clone https://github.com/jeromewu/tesseract.js-offline.git
//第二部:进入tesseract.js-offline目录,开始安装依赖其实是为了某几个文件而已
cd tesseract.js-offline
npm install
//第三步:下载对应的语言包放入 /tesseract.js-offline/lang-data中
// 默认lang-data已经有英文、泰语的语言包 == 如果需要中文简体、繁体则需下载
//https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best
下载中文简体、繁体汉化包
//第四步: 准备一张中文图片 放入 /tesseract.js-offline/images目录中
//第五步:修改 /tesseract.js-offline/browser/index.html 的源码
图片文件为第四步的图片
语言识别支持:英文、中文简体、中文繁体
//第六步:直接启动运行index.html
加载语言包文件报跨域错误
//第七步 -- 将/tesseract.js-offline整个文件夹由Nginx静态代理访问 - 从而避免报跨域问题
// http://127.0.0.1:9997/browser/index.china.html
访问成功
第二步图片
第三步图片
第四步图片 – 直接运行 browser/index.html
第五步 – 修改测试代码
第六步 – 直接启动index.html – 报跨域问题
第七步 – 将/tesseract.js-offline整个文件夹由Nginx静态代理访问 - 从而避免报跨域问题