长文本杀不死RAG!SQL+向量 AI 数据库开源了!

、▼最近直播超级多,预约保你有收获

e5fa98a63ac3a478520cf94e9de72092.png

RAG 的出现使得大模型能从大规模的知识库中精确地抽取信息,并生成实时、专业、富有洞察力的答案。伴随而来的是 RAG 系统的核心功能向量数据库也得到了迅速发展,按照向量数据库的设计理念我们可以将其大致分为三类:专用向量数据库、关键字和向量结合的检索系统、SQL 向量数据库

  • 专用向量数据库以 Pinecone/Milvus 为代表。

  • 关键字和向量检索系统以 Elasticsearch 为代表。

  • SQL向量数据库以 pgvector(PostgreSQL 的向量搜索插件)和 MyScale AI 数据库为代表。

接下我们详细介绍下开源的 MyScale AI 数据库

 1

MyScale AI 数据库是什么?

MyScaleDB 是一款高性能、可扩展且极具成本效益的 AI 数据库,旨在为构建和扩展 AI 应用程序提供坚实的数据底座。它将向量搜索和存储能力整合到一个可扩展的关系型数据库中,支持高效地存储和处理结构和非结构化数据,旨在减少工程复杂性,同时确保 AI 应用的最佳性能表现。

MyScaleDB 的重要特性之一是与 SQL 完全兼容,开发者可以很轻松地使用强大而熟悉的 SQL 查询来加速向量搜索和处理, 以构建生产级别的 AI 大模型应用。

得益于 SQL 数据库在海量结构化数据场景长期的打磨,MyScaleDB 同时支持海量向量和结构化数据,包括字符串、JSON、空间、时序等多种数据类型的高效存储和查询,并将在近期推出功能强大的倒排表和关键字检索功能,进一步提高 RAG 系统的精度并替代 Elasticsearch 等系统。

215044881f28e46c004cf2d3dcba1dc3.png

项目开源地址:https://github.com/myscale/myscaledb

 2

MyScaleDB 架构设计剖析 

AI 大模型新时代时代,MyScale 团队致力于提出新一代的大模型 + 大数据方案。以高性能的 SQL + 向量数据库为坚实的支撑,MyScaleDB 提供了大规模数据处理、知识查询、可观测性、数据分析和小样本学习的关键能力,构建了 AI 和数据闭环,成为下一代大模型 + 大数据 Agent 平台的关键基座,如下图所示:

3dda1c15be8d186b886e626693f8429a.png

在架构落地过程中使用了如下的技术栈:

22259db1ffa4635ff9d5cf0fd41e336c.png

MyScaleDB 可以为轻松构建 AI 大模型应用,主要有以下3点优势: 

第一、完全兼容 SQL

  • 快速、强大、高效的向量搜索、过滤搜索和 SQL +向量联合查询。

  • 使用 SQL 及向量相关的函数与 MyScaleDB 交互,无需学习复杂的新工具或框架。

第二、为 AI 大模型应用提供生产级别的特性和保障

  • 以一个统一平台来管理和处理结构化数据和文本、向量、JSON、地理空间、时间序列等非结构化/半结构化数据。

  • 通过将向量与丰富的元数据相结合,可以在任意比率下执行高精度、高效率的过滤搜索,提高了 RAG 系统的准确性。

第三、无与伦比的性能和可扩展性

  • MyScaleDB 利用先进 OLAP 数据库架构和高级向量算法,实现了快速的向量操作。

  • 随着数据的增长,以轻松且具有成本效益的方式扩展你的应用程序。

为了帮助同学们彻底掌握大模型的向量数据库、 RAG、Agent 智能体、向量数据库、知识图谱的应用开发、部署、生产化,今晚20点我会开一场直播和同学们深度剖析,请同学们点击以下预约按钮免费预约

 3

!送!AI大模型开发直播课程

大模型的技术体系非常复杂,即使有了知识图谱和学习路线后,快速掌握并不容易,我们打造了大模型应用技术的系列直播课程,包括:通用大模型技术架构原理、大模型 Agent 应用开发、企业私有大模型开发、向量数据库、大模型应用治理、大模型应用行业落地案例等6项核心技能,帮助同学们快速掌握 AI 大模型的技能。

 🔥即将开播 

立即扫码,即可免费预约

进入直播,大佬直播在线答疑!

2d798127bd41d8999d242976f3584f2f.gif

7fdc2012baeda6d4ffbce3c5df1aad10.png

本期名额有限

高度起始于速度(手慢无!!)

 4

!!再送!!《AI 大模型技术知识图谱

最近很多同学在后台留言:“玄姐,AI 大模型技术的知识图谱有没?”、“AI 大模型技术有学习路线吗?”

我们倾心整理了 AI 大模型技术的知识图谱快来领取吧!

6bbbe971d6b61ec3d6ed4e0b8b162587.png

这份业界首创知识图谱和学习路线,今天免费送给大家一份!

只需要以下3步操作就可免费领取:

第一步长按扫码以下我的视频号:玄姐谈AGI

ab6c2c9dad8e4eac9128316fe4eef558.png

第二步:扫码后,点击以下关注按钮,就可关注我。

b4832b03401b66056c84818f280bcbf3.jpeg

第三步:点击"客服“按钮,回复知识图谱即可领取。

1def150dd42ab561840adf06dab073fd.jpeg

END

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
根据提供的引用内容,可以得知prompt+RAG的流程如下: 1. 首先,使用Retriever部分在知识库中检索出top-k个匹配的文档zi。 2. 然后,将query和k个文档拼接起来作为QA的prompt,送入seq2seq模型。 3. seq2seq模型生成回复y。 4. 如果需要进行Re-rank,可以使用LLM来rerank,给LLM写好prompt即可。 下面是一个简单的示例代码,演示如何使用prompt+RAG: ```python from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration # 初始化tokenizer、retriever和seq2seq模型 tokenizer = RagTokenizer.from_pretrained('facebook/rag-token-base') retriever = RagRetriever.from_pretrained('facebook/rag-token-base', index_name='exact', use_dummy_dataset=True) model = RagSequenceForGeneration.from_pretrained('facebook/rag-token-base') # 设置query和context query = "What is the capital of France?" context = "France is a country located in Western Europe. Paris, the capital city of France, is known for its romantic ambiance and iconic landmarks such as the Eiffel Tower." # 使用Retriever部分检索top-k个匹配的文档 retrieved_docs = retriever(query) # 将query和k个文档拼接起来作为QA的prompt input_dict = tokenizer.prepare_seq2seq_batch(query, retrieved_docs[:2], return_tensors='pt') generated = model.generate(input_ids=input_dict['input_ids'], attention_mask=input_dict['attention_mask']) # 输出生成的回复 generated_text = tokenizer.batch_decode(generated, skip_special_tokens=True)[0] print(generated_text) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值