搭建 Embedding 向量数据库,手把手教你创造自己的私人智能助理

上篇文章讲解了 Embedding 的一些基本信息并使用 OpenAI 的 Embedding API 进行演示。

没看过的可以先看下,再来阅读本文更容易理解:

初识 Embedding,为何大家都基于它搭建私人智能客服?

上篇文章的案例是每次都重新构建向量数据,虽然 Embedding 方法调用并不算贵,若是私有数据较大,每次都将私有数据转换成对应的向量数据也是一个大开销,这时候就需要向量库的存在。

向量库

我们知道 Embedding 模型需要将数据解析为 1536 个维度,每个维度代表一个概念或特征。当数据量过大时,怎么去构建向量数据库来存储这些数据呢?

构建向量库

向量数据库用来存储所有被转换成向量的数据,从而根据相似性进行搜索,快速找到相似数据。与常见的关系型数据库相比,搜索方式不同且可以存储更为庞大的数据量。

目前主流构建向量数据库的方式有:Pinecone、Milvus、Zilliz 等,这里重点推荐使用 Pinecone,主要是免费还秒审核通过。

登录 Pinecone 官网进行申请:https://www.pinecone.io/

顺便放上官方 API 的地址:https://docs.pinecone.io/docs/python-client#create_index

这里讲解一下核心填写的三个参数:

  • 索引名称:随意填写,满足规范即可
  • 特征维度:即向量的维度,由于 OpenAI 将数据转成向量之后的维度是1536,这里最好也配置成1536
  • 度量距离指标:Pinecone 提供了三种计算距离方式,推荐使用 cosine,有兴趣的可以进一步了解:文档

图片

至此,我们已经申请好了一个向量数据库用来存储,在 indexs 下面可以看到。Index 是 Pinecone 中向量数据的最高层组织单位。它接受和存储向量,服务于对其包含的向量的查询,并对它的内容进行其他向量操作

图片

写入向量数据

向量数据库已经创建好了,那么接下来就是如何向数据库写入数据。

首先需要我们安装对应的 Python 库:

pip install pinecone-client

按照好后,我们就可以直接开始写入向量数据。这里通过读取文件内容的形式:

  1. 将所有数据从 txt 文档中读取出来
  2. 通过 Embedding 转换为对应的向量化数据
  3. 将向量化数据存储到 Pinecone 上创建的 index 中
    在这里插入图片描述
    将所有的向量化数据写入完成后,我们可以在 Pinecone 网站上看到这份数据信息,并且也支持直接在网站上进行修改和删除该数据。有多份私人数据也都可以上传,只需取不同的 ID 避免覆盖即可。

图片

使用向量数据库

现在一切都准备好了,最后就是如何使用已经构建好的向量数据库来辅助回答问题,从而实现私人智能客服的效果。大致步骤如下:

  1. 从 Pinecone 获取制定的索引(即向量数据库)
  2. 将 Prompt 转换为向量数据,从向量数据库提取相似数据
  3. 将提取的数据与 Prompt 重新构建输入,发送给 ChatGPT
  4. ChatGPT 整理内容后输出结果

在这里插入图片描述
在这里插入图片描述

案例展示的向量数据库是关于亚运会首日中国金牌信息,可以看到 ChatGPT 完美成为了我们的私人智能客服来回答问题。

图片

整体流程图

主要就是三大步骤:

  1. 将私人数据转换为向量数据,并写入到向量数据库中
  2. 根据 Prompt 从向量数据库中提取相似数据
  3. 结合相似数据重装组装 Prompt,让 GPT 生成回答

图片

结尾

这样就轻松加简单的构建了一个私人智能客服,可以根据你的私人信息结合 ChatGPT 进行回答,效果还是不错的。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 17
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值