使用Python加载和处理Word文档：从Docx2txt到Azure AI Document Intelligence-CSDN博客

本文链接：https://blog.csdn.net/bhawfgrcbtwny/article/details/142722261

引言

在当今的信息时代，处理和解析Word文档变得尤为重要。无论是从中提取文本、结构化信息，还是实现自动化文档分析，Python都提供了多种强大的工具和库。在本篇文章中，我们将探索如何使用Docx2txt和Azure AI Document Intelligence等工具来加载和解析Word文档。

主要内容

使用Docx2txt加载.docx文档

Docx2txt是一个简单易用的库，专门用于将.docx文档转换为可处理的文本格式。

%pip install --upgrade --quiet docx2txt

from langchain_community.document_loaders import Docx2txtLoader

# 使用API代理服务提高访问稳定性
loader = Docx2txtLoader("./example_data/fake.docx")
data = loader.load()
print(data)

使用Unstructured解析文档

Unstructured提供了更复杂的文档解析能力，支持文本片段的分离和保留。

from langchain_community.document_loaders import UnstructuredWordDocumentLoader

# 默认模式
loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
data = loader.load()
print(data)

# 使用'mode="elements"'保留文档元素的分离
loader = UnstructuredWordDocumentLoader("./example_data/fake.docx", mode="elements")
data = loader.load()
print(data[0])

使用Azure AI Document Intelligence

Azure AI Document Intelligence提供了高级的文档解析功能，支持多种文件格式，并能提取复杂的文档结构。

前提条件

需要在Azure创建Document Intelligence资源，获取API的<endpoint>和<key>。

%pip install --upgrade --quiet langchain langchain-community azure-ai-documentintelligence

from langchain_community.document_loaders import AzureAIDocumentIntelligenceLoader

file_path = "<filepath>"
endpoint = "<endpoint>"
key = "<key>"

# 使用API代理服务提高访问稳定性
loader = AzureAIDocumentIntelligenceLoader(
    api_endpoint=endpoint, api_key=key, file_path=file_path, api_model="prebuilt-layout"
)
documents = loader.load()
print(documents)