在企业和机构中,每天会产生大量的PDF文件。例如,一家中型企业可能每月有数千份合同、报告等PDF文档。人工对这些文件进行分类和重命名非常耗时,容易出现错误。
以下是基于 Go 语言完成图片文档中多个自定义指定区域的文字识别改名与 Excel 结果导出功能的完整步骤和代码:
一、开发思路
- 使用
gosseract
库作为 Go 语言的 OCR 工具,我们可以使用gosseract
来进行 OCR 识别。 - 使用
excelize
库来处理 Excel 文件的创建和数据写入。 - 通过
image
包或其他图像处理库来处理图像裁剪,这里假设我们使用bimg
库进行图像裁剪操作。
二、环境搭建
- 安装所需的 Go 库:
bash
go get github.com/otiai10/gosseract/v2
go get github.com/360EntSecGroup-Skylar/excelize
go get github.com/h2non/bimg
三、具体代码实现
go
package main
import (
"fmt"
"github.com/360EntSecGroup-Skylar/excelize"
"github.com/otiai10/gosseract/v2"
"github.com/h2non/bimg"
"image"
"os"
"path