[深入理解Docugami：智能文档加载与语义分析的革命性工具]

最新推荐文章于 2024-10-06 14:44:47 发布

tt_jishu

最新推荐文章于 2024-10-06 14:44:47 发布

阅读量410

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/tt_jishu/article/details/142392849

版权

引言

在现代的信息时代，处理大量文档并从中提取有用信息是一个关键任务。Docugami提供了一种智能化的文档加载和语义分析工具，帮助开发者更有效地处理复杂文档集。本篇文章将探讨Docugami的使用方法，并展示其相较于其他技术的优势。

主要内容

Docugami简介

Docugami通过将文档拆分为语义XML树结构，使文档加载和查询更加智能化。其独特之处在于语义注释、结构表示和额外的元数据支持。

安装和准备

在使用Docugami之前，需安装必要的Python包并获取访问令牌。通过以下命令安装相关包：

!poetry run pip install docugami-langchain dgml-utils==0.3.0 --upgrade --quiet

文档加载

将文档加载到Docugami中，获取文档的分解块，通过以下代码实现：

import os
from docugami_langchain.document_loaders import DocugamiLoader

DOCUGAMI_API_KEY = os.environ.get("DOCUGAMI_API_KEY")  # 确保设置了API密钥
docset_id = "26xpy3aes7xp"
document_ids = ["d7jqdzcj50sj", "cgd1eacfkchw"]

loader = DocugamiLoader(docset_id=docset_id, document_ids=document_ids)
chunks = loader.load()
len(chunks)

代码示例

以下示例展示了如何使用Docugami加载文档，并进行语义查询：

from langchain.chains import RetrievalQA
from langchain_chroma import Chroma
from langchain_openai import OpenAI, OpenAIEmbeddings

embedding = OpenAIEmbeddings()
vectordb = Chroma.from_documents(documents=chunks, embedding=embedding)
retriever = vectordb.as_retriever()
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(), chain_type="stuff", retriever=retriever, return_source_documents=True
)

# 示例查询
qa_chain("What can tenants do with signage on their properties?")