定制自己的文档问答机器人

最新推荐文章于 2024-08-15 16:40:39 发布

奇舞周刊

最新推荐文章于 2024-08-15 16:40:39 发布

阅读量1k

点赞数

文章标签：机器人人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiwoo_weekly/article/details/130278688

版权

近期ChatGPT很火爆，功能很强大，其具有强大的逻辑推理能力和数据背景。但是如果我们想要使用ChatGPT聊一些它没有训练过的知识，或者我们自己的一些数据时，由于ChatGPT没有学习过这些知识，所以回答结果不准确。

下文就介绍一种基于llama-index和ChatGPT API实现的基于你自己提供的数据来定制私有对话机器人的方式。

探索方法

1、想要定制基于自己专属数据的机器人，首先想到的是fine-tunes微调的方式。用大量的数据对GPT模型进行微调来实现一个可以理解你提供文档的模型。但是，微调需要花费很多money，而且需要一个有实例的大数据集。也不可能在文件有变化时每次都进行微调。更关键的一点是，微调根本不可能让模型 “知道 “文档中的所有信息，而是要教给模型一种新的技能。因此，微调不是一个好办法。

2、将你的私有文本内容作为prompt的上下文对ChatGPT进行提问。但是openai api存在最大长度的限制，ChatGPT 3.5的最大token数为4096，如果超过长度限制，会直接对文档截断，存在上下文丢失的问题。并且api的调用费用和token长度成正比，tokens数太大，则每次调用的成本也会很高。

既然tokens有限制，那么有没有对文本内容进行预处理的工具呢，使不超过token数限制。llama-index就是一种这种工具，借助llama-index可以从文本中只提取出相关部分，然后将其反馈给prompt。

接下来我将给出一个使用llama-index和ChatGPT API基于自己的数据，实现问答聊天机器人的分步教程。

前期准备：

OpenAI API密钥，可以在https://platform.openai.com/account/api-keys查看。如果还没有申请，可以查阅资料申请OpenAI API的密钥。使用OpenAI API密钥可以与openai提供的各种模型进行交互。
一个文档资料数据库。llama-index支持许多不同的数据源，如API、PDF、文档、SQL 、Google Docs等。在本教程中，我们只使用一个简单的文本文件进行演示。
本地的Python环境或在线的Google Colab。本教程中使用本地的Python环境演示。

流程：

安装依赖：

pip install openai
pip install llama-index

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

奇舞周刊 CSDN认证博客专家 CSDN认证企业博客

码龄5年

456: 原创

1万+: 周排名

3336: 总排名

188万+: 访问

: 等级

8987: 积分

1316: 粉丝

1401: 获赞

153: 评论

3314: 收藏

私信

关注

热门文章

分类专栏

浏览器 2篇

最新评论

5分钟带你了解【前端装饰器】，“高大上”的“基础知识”
柑橘乌云_: 想进学习群
异步难题：前端并发控制全解析
佳人士: 您好方法三按照您的代码来直接是死循环了该怎么改下呢[code=javascript] function gets(ids, max) { return new Promise((resolve) => { const res = []; let loadcount = 0; let curIndex = 0; function load(id, index) { return get(id).then( (data) => { loadcount++; console.log('请求次数--------------', loadcount) if (loadcount === ids.length) { res[index] = data; resolve(res); console.log('res--------', res); } else { curIndex++; load(ids[curIndex]); } }, (err) => { res[index] = err; loadcount++; curIndex++; load(ids[curIndex]); } ); } for (let i = 0; i < max && i < ids.length; i++) { curIndex = i; load(ids[i], i); } }); } gets([1,2,3,4,5,6,7,8,9], 3) [/code]
Chroma + Ollama 搭建本地RAG应用
mutung: Chroma怎么配置呢一直报错pydantic_core._pydantic_core.ValidationError: 5 validation errors for Settings clickhouse_host Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type clickhouse_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_host Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_http_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_grpc_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visi
CSS 实现多行文本“展开收起”
视觉CG: css是世界上最难的语言
浅析 VSCode 代码高亮实现原理
weixin_43657234: 写的太好了👍👍👍👍👍👍👍

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。