**深入解析Amazon Textract：自动化文档数据提取的利器**-CSDN博客

本文链接：https://blog.csdn.net/dfvcbipanjr/article/details/142866255

# 引言

在现代商业中，处理和解析大量的扫描文档是一个常见但耗时的任务。Amazon Textract通过机器学习技术，不仅仅是简单的光学字符识别（OCR），而是深入识别、理解和提取表格和表单中的数据。这篇文章旨在介绍Amazon Textract的功能和应用，并结合LangChain展示如何有效利用该服务。

# 主要内容

## 什么是Amazon Textract？

Amazon Textract是一种ML服务，自动从扫描文档中提取文本、手写体和数据。与传统OCR不同，它能识别和解析形式复杂的文档，如表格和表单。Textract支持的文件格式包括PDF、TIFF、PNG和JPEG。

## 安装依赖

在开始使用Textract之前，需要安装必要的Python库：

```bash
%pip install --upgrade --quiet boto3 langchain-openai tiktoken python-dotenv  # 用于API代理服务提高访问稳定性
%pip install --upgrade --quiet "amazon-textract-caller>=0.2.0"

Textract的使用场景

本地文件解析：通过同步API DetectDocumentText，可以直接解析本地单页文件。
HTTPS文件解析：同样支持，但文件必须为单页。
多页文件解析：需要将文件放置于S3存储桶中，通过指定区域调用Textract服务。
文本线性化选项：可以通过配置隐藏页面布局信息。

代码示例

示例1：解析本地文件

from langchain_community.document_loaders import AmazonTextractPDFLoader

loader = AmazonTextractPDFLoader("example_data/alejandro_rosalez_sample-small.jpeg")
documents = loader.load()

# 输出解析结果
print(documents)

示例2：解析多页S3文件

import boto3
from langchain_community.document_loaders import AmazonTextractPDFLoader

textract_client = boto3.client("textract", region_name="us-east-2")
file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

print(len(documents))  # 预计输出16页