使用 JavaScript 上传 PDF 并进行 OCR(光学字符识别)

技术栈

  • 前端:HTML、CSS、Bootstrap

  • 后端:Node.js、Express.js、Multer、Tesseract.js、pdf-lib

  • OCR 库:Tesseract.js

  • PDF 库:pdf-lib

设置说明

1. 安装依赖项

后端

进入后端目录并安装所需的包:

bash复制代码cd backend
npm install
前端

可以使用相同的目录来提供静态文件,或者设置一个单独的前端目录。对于提供的 HTML,不需要额外的依赖项。

2. 配置后端

确保安装了以下包:

npm install express cors multer pdf-lib tesseract.js pdf-poppler

3. 启动后端服务器

运行服务器:

node server.js

4. 访问应用程序

打开浏览器并导航至 http://localhost:3000,你将看到可以上传 PDF 文件的前端界面。

工作原理

前端:

  • 用户使用文件输入选择一个 PDF 文件。

  • 在表单提交时,文件通过 POST 请求发送到后端。

  • 在处理 PDF 时,会显示加载旋转图标。

后端:

  • 接收 PDF 文件,如果需要,将其转换为图像,并使用 Tesseract.js 进行 OCR。

  • 从 PDF 图像中提取文本,并将结果返回给前端。

前端代码

以下是前端使用的 index.html 文件:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>PDF Upload and OCR</title>
    <link href="https://stackpath.bootstrapcdn.com/bootst
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻想多巴胺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值