Tesseract.js 安装和配置指南

龚勇克Renee

于 2024-09-13 21:45:13 发布

阅读量173

点赞数 2

本文链接：https://blog.csdn.net/gitblog_07252/article/details/142223597

版权

Tesseract.js 安装和配置指南

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js

1. 项目基础介绍和主要编程语言

项目基础介绍

Tesseract.js 是一个纯 JavaScript 的 OCR（光学字符识别）库，它基于流行的 Tesseract OCR 引擎。Tesseract.js 支持超过 100 种语言，能够在浏览器和 Node.js 环境中运行。它能够从图像中提取文本，并支持自动文本方向检测和脚本检测。

主要编程语言

Tesseract.js 主要使用 JavaScript 编写，适用于前端和后端开发。

2. 项目使用的关键技术和框架

关键技术

WebAssembly: Tesseract.js 使用 WebAssembly 技术来提高性能，使得 OCR 功能在浏览器中也能高效运行。
Node.js: 在服务器端，Tesseract.js 依赖 Node.js 环境来运行。

框架

Webpack: 用于打包和优化 JavaScript 代码。
ESM (ECMAScript Modules): 支持现代 JavaScript 模块化开发。

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

Node.js 环境: 确保你的系统上已经安装了 Node.js（建议版本 v14 或更高）。你可以通过 Node.js 官网下载并安装。
包管理工具: 推荐使用 npm 或 yarn 作为包管理工具。npm 随 Node.js 一起安装，yarn 可以通过 npm 安装：
```
npm install -g yarn
```

详细安装步骤

1. 创建项目目录并初始化

首先，创建一个新的项目目录，并在该目录下初始化 npm 或 yarn：

mkdir tesseract-demo
cd tesseract-demo
npm init -y
# 或者使用 yarn
yarn init -y

2. 安装 Tesseract.js

在项目目录下安装 Tesseract.js：

npm install tesseract.js
# 或者使用 yarn
yarn add tesseract.js

3. 创建并配置项目文件

在项目目录下创建一个 index.js 文件，并添加以下代码：

// index.js
import { createWorker } from 'tesseract.js';

(async () => {
  const worker = await createWorker('eng');
  const ret = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png');
  console.log(ret.data.text);
  await worker.terminate();
})();

4. 运行项目

在终端中运行以下命令来执行 index.js 文件：

node index.js

配置说明

createWorker('eng'): 创建一个识别英文的 OCR 工作线程。你可以根据需要替换 'eng' 为其他语言代码。
worker.recognize('image_url'): 识别指定图像中的文本。你可以替换 'image_url' 为本地图像路径或网络图像 URL。
worker.terminate(): 终止工作线程，释放资源。

通过以上步骤，你已经成功安装并配置了 Tesseract.js，并能够从图像中提取文本。你可以根据项目需求进一步扩展和优化。

tesseract.js Pure Javascript OCR for more than 100 Languages 📖🎉🖥 项目地址: https://gitcode.com/gh_mirrors/te/tesseract.js