一、向量检索的定义与原理
什么是向量
向量是一种有大小和方向的数学对象。它可以表示为从一个点到另一个点的有向线段。例如,二维空间中的向量可以表示为 (𝑥,𝑦)(𝑥,𝑦),表示从原点 (0,0)(0,0) 到点 (𝑥,𝑦)(𝑥,𝑦) 的有向线段。
以此类推,我可以用一组坐标 (𝑥0,𝑥1,…,𝑥𝑁−1)(𝑥0,𝑥1,…,𝑥𝑁−1) 表示一个 𝑁𝑁 维空间中的向量,𝑁𝑁 叫向量的维度。
文本向量(Text Embeddings)
- 将文本转成一组 𝑁𝑁 维浮点数,即文本向量又叫 Embeddings
- 向量之间可以计算距离,距离远近对应语义相似度大小
文本向量是怎么得到的
- 构建相关(正立)与不相关(负例)的句子对儿样本
- 训练双塔式模型,让正例间的距离小,负例间的距离大
向量间的相似度计算
我们用检索关键词和一组文本的样例来看下效果
余弦距离和欧氏距离的核心逻辑
def cos_sim(a, b):
'''余弦距离 -- 越大越相似'''
return dot(a, b)/(norm(a)*norm(b))
def l2(a, b):
'''欧氏距离 -- 越小越相似'''
x = np.asarray(a)-np.asarray(b)
return norm(x)
def get_embeddings(texts, model="text-embedding-ada-002", dimensions=None):
'''封装 OpenAI 的 Embedding 模型接口'''
if model == "text-embedding-ada-002":
dimensions = None
if dimensions:
data = client.embeddings.create(
input=texts, model=model, dimensions=dimensions).data
else:
data = client.embeddings.create(input=texts, model=model).data
return [x.embedding for x in data]
# query = "国际争端"
# 且能支持跨语言
query = "global conflicts"
documents = [
"联合国就苏丹达尔富尔地区大规模暴力事件发出警告",
"土耳其、芬兰、瑞典与北约代表将继续就瑞典“入约”问题进行谈判",
"日本岐阜市陆上自卫队射击场内发生枪击事件 3人受伤",
"国家游泳中心(水立方):恢复游泳、嬉水乐园等水上项目运营",
"我国首次在空间站开展舱外辐射生物学暴露实验",
]
执行并输出结果
query_vec = get_embeddings([query])[0]
doc_vecs = get_embeddings(documents)
print("Query与自己的余弦距离: {:.2f}".format(cos_sim(query_vec, query_vec)))
print("Query与Documents的余弦距离:")
for vec in doc_vecs:
print(cos_sim(query_vec, vec))
print()
print("Query与自己的欧氏距离: {:.2f}".format(l2(query_vec, query_vec)))
print("Query与Documents的欧氏距离:")
for vec in doc_vecs:
print(l2(query_vec, vec))
我们来看下执行的效果:
Query与自己的余弦距离: 1.00
Query与Documents的余弦距离:
0.7622749944010915(越大越相似)
0.7563038106493584
0.7426665802579038
0.7079273699608006
0.7254355321045072
Query与自己的欧氏距离: 0.00
Query与Documents的欧氏距离:
0.6895288502682277(越小越相似)
0.6981349637998769
0.7174028746492277
0.7642939833636829
0.7410323668625171
向量数据库
向量数据库(Vector Database),也叫矢量数据库,主要用来存储和处理向量数据。
再结合刚才我们对向量定义的描述,图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中,从而实现对图像、文本和音视频的相似性搜索和检索。
这意味着您可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据,而不是使用基于精确匹配或预定义标准查询数据库的传统方法。也就是我们提到的关键字检索的局限性。
向量数据库的特点
这里我们为了方便使用向量数据库完成向量检索的方案,简单介绍下向量数据库的特点:
向量数据库的主要特点是高效存储与检索。利用索引技术和向量检索算法能实现高维大数据下的快速响应。向量数据库也是一种数据库,除了要管理向量数据外,还是支持对传统结构化数据的管理。实际使用时,有很多场景会同时对向量字段和结构化字段进行过滤检索,这对向量数据库来说也是一种挑战。
严格来说数据向量化本不属于向量数据库,但是数据向量化又是一项很重要的工作,为了流程的完整性暂且放进去。区别与传统数据库主要有以下几个地方不相同:数据向量化,向量检索和相似度计算。
chromadb的简单介绍
之所以介绍一下chromadb,下面我们的实战demo就是基于chromadb来实现。
Chroma的目标是帮助用户更加便捷地构建大模型应用,更加轻松的将知识(knowledge)、事实(facts)和技能(skills)等我们现实世界中的文档整合进大模型中。
Chroma提供的工具:
- 存储文档数据和它们的元数据:store embeddings and their metadata
- 嵌入:embed documents and queries
- 搜索: search embeddings
流向量数据库功能对比
由于大模型的火热,现在市面上的向量数据库众多,主流的向量数据库对比如下所示:
向量数据库 | URL | GitHub Star | Language |
---|---|---|---|
chroma | github.com/chroma-core… | 7.4K | Python |
milvus | github.com/milvus-io/m… | 21.5K | Go/Python/C++ |
pinecone | www.pinecone.io/ | ❌ | ❌ |
qdrant | github.com/qdrant/qdra… | 11.8K | Rust |
typesense | github.com/typesense/t… | 12.9K | C++ |
weaviate | github.com/weaviate/we… | 6.9K | Go |
二、一个基于文档向量检索的RAG实战例子
我们再回顾RAG的基本流程,对照如下例子,大家就可以更好理解了
RAG系统搭建的基本流程
- 准备对应的垂域资料
- 文档的读取解析,进行文档切分
- 将分割好的文本灌入检索引擎(向量数据库)
- 封装检索接口
- 构建流程:Query -> 检索 -> Prompt -> LLM -> 回复
- 文档加载
def extract_text_from_pdf(filename,page_numbers=None,min_line_length=10):
"""从 PDF 文件中(按指定页码)提取文字"""
paragraphs = []
buffer = ''
full_text = ''
# 提取全部文本
for i, page_layout in enumerate(extract_pages(filename)):
# 如果指定了页码范围,跳过范围外的页
if page_numbers is not None and i not in page_numbers:
continue
for element in page_layout:
if isinstance(element, LTTextContainer):
full_text += element.get_text() + '\n'
# 按空行分隔,将文本重新组织成段落
lines = full_text.split('\n')
for text in lines:
if len(text) >= min_line_length:
buffer += (' '+text) if not text.endswith('-') else text.strip('-')
elif buffer:
paragraphs.append(buffer)
buffer = ''
if buffer:
paragraphs.append(buffer)
return paragraphs
- 文档切割(交叠切割防止问题的答案跨两个片段,使上下文更完整)
def split_text(paragraphs,chunk_size=300,overlap_size=100):
"""按指定 chunk_size 和 overlap_size 交叠割文本"""
sentences = [s.strip() for p in paragraphs for s in sent_tokenize(p)]
chunks = []
i= 0
while i < len(sentences):
chunk = sentences[i]
overlap = ''
prev_len = 0
prev = i - 1
# 向前计算重叠部分
while prev >= 0 and len(sentences[prev])+len(overlap) <= overlap_size:
overlap = sentences[prev] + ' ' + overlap
prev -= 1
chunk = overlap+chunk
next = i + 1
# 向后计算当前chunk
while next < len(sentences) and len(sentences[next])+len(chunk) <= chunk_size:
chunk = chunk + ' ' + sentences[next]
next += 1
chunks.append(chunk)
i = next
return chunks
- 向量化(这里使用openai的向量化模型)
def get_embedding(text, model="text-embedding-ada-002"):
"""封装 OpenAI 的 Embedding 模型接口"""
return openai.Embedding.create(input=[text], model=model)['data'][0]['embedding']
- 灌入向量库(使用chromadb)
def __init__(self, name="demo"):
self.chroma_client = chromadb.Client(Settings(allow_reset=True))
self.chroma_client.reset()
self.name = name
self.collection = self.chroma_client.get_or_create_collection(name=name)
def add_documents(self, documents):
self.collection.add(
embeddings=[get_embedding(doc) for doc in documents],
documents=documents,
metadatas=[{"source": self.name} for _ in documents],
ids=[f"id_{i}" for i in range(len(documents))]
)
- 检索向量数据库
def search(self, query, top_n):
"""检索向量数据库"""
results = self.collection.query(
query_embeddings=[get_embedding(query)],
n_results=top_n
)
return results['documents'][0]
- 将检索数据带入提示词
def build_prompt(template=prompt_template, **kwargs):
"""将 Prompt 模板赋值"""
prompt = template
for k, v in kwargs.items():
if isinstance(v, str):
val = v
elif isinstance(v, list) and all(isinstance(elem, str) for elem in v):
val = '\n'.join(v)
else:
val = str(v)
prompt = prompt.replace(f"__{k.upper()}__", val)
return prompt
- 调用大模型
def get_completion(prompt, context, model="gpt-3.5-turbo"):
"""封装 openai 接口"""
messages = context + [{"role": "user", "content": prompt}]
response = openai.ChatCompletion.create(
model=model,
messages=messages,
temperature=0, # 模型输出的随机性,0 表示随机性最小
)
return response.choices[0].message["content"]
三、向量检索与关键字检索的对比
维度 | 向量检索 | 关键字检索 |
---|---|---|
检索方式 | 基于文档和查询之间的相似度计算来进行检索。文档和查询通常被表示为高维空间中的向量,通过计算它们之间的相似度来确定最相关的文档。 | 是通过匹配查询中的关键字与文档中的关键字来进行检索。当用户输入一个查询时,系统会在文档集合中查找包含这些关键字的文档,并将它们返回给用户。 |
表示方式 | 需要将文档和查询转换成向量形式,这通常通过词袋模型或词嵌入等技术实现,其中每个维度代表一个词汇项,而向量的值通常表示词频或TF-IDF权重。 | 不需要对文档和查询进行特殊的表示,而是直接基于文档中的关键字与查询中的关键字进行匹配。 |
匹配精度 | 通常能够提供更精确的匹配,因为它考虑了文档和查询之间的语义相似度,而不仅仅是关键字的匹配。 | 可能会受到一些问题的影响,例如同义词、拼写错误等,这可能会导致一些相关的文档被漏掉或者一些不相关的文档被检索到。 |
使用范围 | 通常在需要考虑语义相似度的情况下使用,例如在自然语言处理领域中的文档检索、语义搜索等方面。 | 更适合简单的检索场景,例如在搜索引擎中用户输入关键字进行网页检索。 |
总的来说,向量检索更适合处理复杂的语义匹配问题,而_关键字检索则更适合简单的关键字匹配需求_。
RAG的核心在于检索增强,而检索增强的主要手段是知识库,我们引入外部知识库可以是ES类似的关键字检索,也可以是Chroma类似的向量检索。
RAG已经是AIGC当中热门又尤为重要的一个方向,希望我们对于我们提高我们大模型的性能有所帮助。
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频,免费分享!
一、大模型全套的学习路线
L1级别:AI大模型时代的华丽登场
L2级别:AI大模型API应用开发工程
L3级别:大模型应用架构进阶实践
L4级别:大模型微调与私有化部署
达到L4级别也就意味着你具备了在大多数技术岗位上胜任的能力,想要达到顶尖水平,可能还需要更多的专业技能和实战经验。
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、大模型经典PDF书籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人在大模型时代,需要不断提升自己的技术和认知水平,同时还需要具备责任感和伦理意识,为人工智能的健康发展贡献力量。
有需要全套的AI大模型学习资源的小伙伴,可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费
】
如有侵权,请联系删除。