Amazon Textract Textractor 开源项目教程

最新推荐文章于 2024-09-25 08:09:27 发布

吉皎妃Frasier

最新推荐文章于 2024-09-25 08:09:27 发布

阅读量860

点赞数 9

本文链接：https://blog.csdn.net/gitblog_00649/article/details/142505216

版权

Amazon Textract Textractor 开源项目教程

amazon-textract-textractor Analyze documents with Amazon Textract and generate output in multiple formats. 项目地址: https://gitcode.com/gh_mirrors/am/amazon-textract-textractor

1. 项目介绍

Amazon Textract Textractor 是一个 Python 包，旨在无缝集成 Amazon Textract 服务。Amazon Textract 是一项文档智能服务，提供文本识别、表格提取、表单处理等功能。Textractor 简化了使用 Textract 的过程，无论是编写一次性脚本还是复杂的分布式文档处理管道。

Textractor 提供了多种功能，包括：

文本识别
表格提取
表单处理
文档分析

2. 项目快速启动

安装

首先，使用 pip 安装 Textractor：

pip install amazon-textract-textractor

快速启动代码示例

以下是一个简单的代码示例，展示如何使用 Textractor 进行文本识别：

from textractor import Textractor

# 初始化 Textractor 实例
extractor = Textractor(profile_name="default")

# 进行文本识别
document = extractor.detect_document_text(file_source="tests/fixtures/single-page-1.png")

# 打印识别的文本行
print(document.lines)

3. 应用案例和最佳实践

表格提取

Textractor 可以轻松提取文档中的表格，并将其保存为 Excel 文件：

from textractor import Textractor
from textractor.data.constants import TextractFeatures

extractor = Textractor(profile_name="default")

# 分析文档并提取表格
document = extractor.analyze_document(
    file_source="tests/fixtures/form.png",
    features=[TextractFeatures.TABLES]
)

# 将表格保存为 Excel 文件
document.tables[0].to_excel("output.xlsx")

表单提取

Textractor 还可以提取表单中的键值对：

from textractor import Textractor
from textractor.data.constants import TextractFeatures

extractor = Textractor(profile_name="default")

# 分析文档并提取表单
document = extractor.analyze_document(
    file_source="tests/fixtures/form.png",
    features=[TextractFeatures.FORMS]
)

# 查找并打印特定键值对
print(document.get("email"))