使用 Python 从 Microsoft SharePoint 文档库加载文档

最新推荐文章于 2025-03-22 10:45:41 发布

safHTEAHE

最新推荐文章于 2025-03-22 10:45:41 发布

阅读量500

点赞数 5

文章标签： python microsoft sharepoint

本文链接：https://blog.csdn.net/safHTEAHE/article/details/144976418

版权

在企业协作和文档管理中，Microsoft SharePoint 是一个重要的平台。通过其网站协作系统，SharePoint 提供了工作流应用程序、列表数据库和其他组件以增强团队合作。在这篇文章中，我们将介绍如何使用 Python 加载 SharePoint 文档库中的文档（支持 docx、doc 和 pdf 文件）。

技术背景介绍

Microsoft SharePoint 提供了一种进行文档管理和共享的无缝方式，结合 Microsoft 的身份验证体系（Azure Active Directory）及其 Graph API，我们能够以编程方式访问和操作存储在 SharePoint 文档库中的文件。

核心原理解析

SharePoint 文档库中的文件可以通过 Microsoft Graph API 进行访问，这需要预先配置的应用注册和适当的权限设置。通过 SharePointLoader 类，我们可以在 Python 中轻松加载这些文件。

代码实现演示

首先，确保已注册应用程序并获取必要的凭证（CLIENT_ID 和 CLIENT_SECRET）。然后，您可以使用以下 Python 代码来加载文档：

import os
from langchain_community.document_loaders.sharepoint import SharePointLoader

# 设置环境变量，存储认证信息
os.environ['O365_CLIENT_ID'] = "YOUR CLIENT ID"
os.environ['O365_CLIENT_SECRET'] = "YOUR CLIENT SECRET"

# 初始化 SharePointLoader
loader = SharePointLoader(
    document_library_id="YOUR DOCUMENT LIBRARY ID",  # 文档库ID
    auth_with_token=True
)

# 加载指定目录下的文档
documents = loader.load()

print(documents)

加载目录中的所有文档

如果需要加载特定目录中的文档，可以指定 folder_path：

loader = SharePointLoader(
    document_library_id="YOUR DOCUMENT LIBRARY ID",
    folder_path="Documents/marketing",  # 指定文件夹
    auth_with_token=True
)
documents = loader.load()

加载特定文档 ID

如果只想加载特定的文档，您可以通过其 object_id 来指定：

loader = SharePointLoader(
    document_library_id="YOUR DOCUMENT LIBRARY ID",
    object_ids=["ID_1", "ID_2"],  # 指定文档ID
    auth_with_token=True
)
documents = loader.load()