技术栈
-
前端:HTML、CSS、Bootstrap
-
后端:Node.js、Express.js、Multer、Tesseract.js、pdf-lib
-
OCR 库:Tesseract.js
-
PDF 库:pdf-lib
设置说明
1. 安装依赖项
后端
进入后端目录并安装所需的包:
bash复制代码cd backend npm install
前端
可以使用相同的目录来提供静态文件,或者设置一个单独的前端目录。对于提供的 HTML,不需要额外的依赖项。
2. 配置后端
确保安装了以下包:
npm install express cors multer pdf-lib tesseract.js pdf-poppler
3. 启动后端服务器
运行服务器:
node server.js
4. 访问应用程序
打开浏览器并导航至 http://localhost:3000
,你将看到可以上传 PDF 文件的前端界面。
工作原理
前端:
-
用户使用文件输入选择一个 PDF 文件。
-
在表单提交时,文件通过 POST 请求发送到后端。
-
在处理 PDF 时,会显示加载旋转图标。
后端:
-
接收 PDF 文件,如果需要,将其转换为图像,并使用 Tesseract.js 进行 OCR。
-
从 PDF 图像中提取文本,并将结果返回给前端。
前端代码
以下是前端使用的 index.html
文件:
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>PDF Upload and OCR</title> <link href="https://stackpath.bootstrapcdn.com/bootst