前端小知识：第三方JS库：tesseract.js（基于浏览器性能的离线OCR）

最新推荐文章于 2025-03-03 17:06:48 发布

嗯嗯**

最新推荐文章于 2025-03-03 17:06:48 发布

阅读量2.9k

点赞数 4

分类专栏：前端知识文章标签：前端 javascript 离线OCR tesseract.js js库

本文链接：https://blog.csdn.net/weixin_39651356/article/details/128450255

版权

前端知识专栏收录该内容

25 篇文章

订阅专栏

文章目录

- tesseract.js（离线OCR）
- - 概述
  - 使用

tesseract.js（离线OCR）

概述

仓库地址： https://github.com/naptha/tesseract.js

语言包地址： https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best

离线OCR仓库地址（使用这个）： https://github.com/jeromewu/tesseract.js-offline

API参考： https://github.com/naptha/tesseract.js/blob/master/docs/api.md#worker-load-language

使用教程简单参考： https://blog.csdn.net/qq_35077107/article/details/105341115

使用

//第一步：拉取离线版tesseract.js-offline
git clone https://github.com/jeromewu/tesseract.js-offline.git

//第二部：进入tesseract.js-offline目录，开始安装依赖其实是为了某几个文件而已
cd  tesseract.js-offline
npm install

//第三步：下载对应的语言包放入 /tesseract.js-offline/lang-data中
// 默认lang-data已经有英文、泰语的语言包 == 如果需要中文简体、繁体则需下载
//https://github.com/naptha/tessdata/tree/gh-pages/4.0.0_best
下载中文简体、繁体汉化包

//第四步： 准备一张中文图片 放入 /tesseract.js-offline/images目录中


//第五步：修改   /tesseract.js-offline/browser/index.html 的源码
图片文件为第四步的图片
语言识别支持：英文、中文简体、中文繁体

//第六步：直接启动运行index.html
加载语言包文件报跨域错误

//第七步 -- 将/tesseract.js-offline整个文件夹由Nginx静态代理访问 - 从而避免报跨域问题
//  http://127.0.0.1:9997/browser/index.china.html
访问成功