腾讯云向量数据库-RAG介绍2

本文探讨了如何通过chunk拆分和改进的知识拆分方案优化AI性能,重点介绍了嵌入技术如Word2Vec和BERT在相似性检索中的关键作用,以及VDB垂类embedding模型和RAG的原理,包括结果召回和重排序在检索流程中的核心。
摘要由CSDN通过智能技术生成

1.chunk拆分对最终效果的影响

2.改进知识的拆分方案

3.AI套件

4.相似性检索的关键:embedding技术

嵌入技术是相似性检索的关键,它能够将数据转换为向量表示,并通过比较向量之间的相似性来实现相似性检索;embedding:将整个文本转换成实数向量的技术。将一些离散的词语和句子转换为连续的向量,可以使用数学方法来处理词语或句子,从而捕捉到文本的语义信息,文本和文本的关系信息。

嵌入技术是通过将数据映射到低维空间中的向量表示,以便比较和衡量它们之间的相似性。

嵌入技术在不同领域中都有广泛的应用,例如自然语言处理、计算机视觉和推荐系统等。在相似性检索中,嵌入技术能够将原始数据(如文本、图像或音频)转换为稠密向量表示。

通过使用嵌入技术,可以将数据转换为连续且有意义的向量表示,使得相似的数据在向量空间中更接近,而不相似的数据则更远离。这样,可以通过计算向量之间的距离或相似度来进行相似性检索。

嵌入技术的具体方法包括词嵌入(word embedding)、图像嵌入(image embedding)和音频嵌入(audio embedding)等。常用的嵌入模型包括Word2Vec、BERT和Siamese网络等。

相似性检索的关键是选择合适的嵌入技术,并使用合适的训练数据来训练嵌入模型。此外,还需要选择合适的距离度量方法(如欧氏距离或余弦相似度)来衡量向量之间的相似性。

5.VDB垂类embedding模型

通过特征提取和嵌入学习的方式,将高维数据样本映射到嵌入空间中,从而实现数据的低维表示和嵌入,应用于各种任务,如分类、聚类和可视化等。

VDB(Variational Deep Boltzmann Machine)垂类embedding模型是一种基于深度学习的数据嵌入方法,用于学习高维数据的低维表示。它通过组合深度学习模型和Boltzmann机的思想,利用变分推断技术进行训练。

基本思路是将数据样本映射到一个嵌入空间中,使得具有相似特征的样本在嵌入空间中的距离更近。两个主要步骤来实现这一目标:特征提取和嵌入学习

在特征提取步骤中,VDB垂类embedding模型使用深度学习网络(例如,卷积神经网络)对原始数据样本进行特征提取。

在嵌入学习步骤中,VDB垂类embedding模型使用变分推断技术将特征映射到嵌入空间中。它通过最小化嵌入空间中样本之间的距离,来保持具有相似特征的样本在嵌入空间中的邻近性。同时,它还通过最大化嵌入空间中样本之间的距离,来增加具有不同特征的样本之间的差异性。

6.RAG的核心:结果召回和重排序

RAG应用的检索流程图

query预处理:意图识别→生成同义query→query标准化

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值