本文介绍如何基于Llama 3大模型、以及使用本地的PDF文件作为知识库,实现RAG(检索增强生成)。
RAG,是三个单词的缩写:Retrieval、Augmented、Generation,代表了这个方案的三个步骤:检索、增强、生成。
基本的步骤是这样的:
-
1. 先用本地的各种文件,构建一个向量数据库,做为本地的知识库。
-
2. 然后当用户对大模型提问时,先在本地的向量数据库里面查找跟问题相关的内容。这一步叫做Retrieval检索。
-
3. 再把从向量数据库中查找到的内容,和用户的原始问题合到一起,作为Prompt发给大模型。这一步叫做Augmented增强。
-
4. 最后,大模型会根据prompt返回内容。这一步叫做Generation生成。
道理很简单,但实际用起来,里面会有很多地方需要去仔细的研究、调参。
1. 准备工作
在开始写代码之前,需要先从HuggingFace下载模型文件。我选用的是Meta-Llama-3-8B-Instruct。国内用户可以从hf-mirror.com下载,网络比HuggingFace.co稳定得多。
另外,还需要下载Embeddings模型,用于将文本转为embeddings,然后才能保存到向量数据库,并进行后续的相似性查找。我选用的是微软的multilingual-e5-large-instruct模型。也可以用北大的bge-m3模型。但这两个Embeddings模型的参数和相关度数值会有比较大的差异,需要去试验、调整代码里面的参数。
模型下载之后,需要在本地安装所需的Python库:
$ pip install PyPDF2 transformers langchain langchain_community langchain_huggingface faiss-cpu
目前,我安装的langchain是0.2.1版本。随着版本的不同,这个库大概率会发生较大的改变,从而导致运行失败。
吐槽一下,langchain这玩意的版本兼容性真是无语的很,然后还拆成一堆的库需要分别安装,莫非他们的KPI是按照PIP所需要安装的数量考核的……
2. 加载/创建向量数据库
现在,可以开始写代码了。
首先,我们需要看看本地的向量数据库是否已经存在。如果存在的话,直接加载、使用;否则的话,则去读取本地的PDF文件、切分文本、然后用切分好的文本和指定的embeddings模型来创建向量数据库:
# Load pdf file and return the text
def load_single_pdf(file_path):
pdf_reader = PdfReader(file_path)
if not pdf_reader:
return None
ret = ''
for i, page in enumerate(pdf_reader.pages):
txt = page.extract_text()
if txt:
ret += txt
return ret
# Split the text into docs
def split_text(txt, chunk_size=256, overlap=32):
if not txt:
return None
splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=overlap)
docs = splitter.split_text(txt)
return docs
# Save docs to vector store with embeddings
def create_vector_store(docs, embeddings, store_path):
vector_store = FAISS.from_texts(docs, embeddings)
vector_store.save_local(store_path)
return vector_store
# Load vector store from file
def load_vector_store(store_path, embeddings):
if os.path.exists(store_path):
vector_store = FAISS.load_local(store_path, embeddings,
allow_dangerous_deserialization=True)
return vector_store
else:
return None
def load_or_create_vector_store(store_path, pdf_file_path):
embeddings = create_embeddings()
vector_store = load_vector_store(store_path, embeddings)
if not vector_store:
# Not found, build the vector store
txt = load_single_pdf(pdf_file_path)
docs = split_text(txt)
vector_store = create_vector_store(docs, embeddings, store_path)
return vector_store
3. 检索
得到向量数据库之后,就可以根据用户的问题,在数据库内进行相关性查找(检索)。
# Query the context from vector store
def query_vector_store(vector_store, query, k=4, relevance_threshold=0.8):
similar_docs = vector_store.similarity_search_with_relevance_scores(query, k=k)
related_docs = list(filter(lambda x: x[1] > relevance_threshold, similar_docs))
context = [doc[0].page_content for doc in related_docs]
return context
这里,设置了一个relevance_threshold,当查找到的内容的相关度小于这个数值时,则认为无关,即无法从向量数据库里查找到与问题相关的信息。
4. 增强与生成
根据从向量数据库查找到的信息/上下文,可以把这些信息跟用户的输入的问题合到一起(增强),然后一起发给已经加载的大模型(生成)。
def ask(model, tokenizer, prompt, max_tokens=512):
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids('<|eot_id|>')
]
input_ids = tokenizer([prompt],
return_tensors='pt',
add_special_tokens=False).input_ids.to(CUDA_Device)
generated_input = {
'input_ids': input_ids,
'max_new_tokens': max_tokens,
'do_sample': True,
'top_p': 0.95,
'temperature': 0.9,
'repetition_penalty': 1.1,
'eos_token_id': terminators,
'bos_token_id': tokenizer.bos_token_id,
'pad_token_id': tokenizer.pad_token_id
}
generated_ids = model.generate(**generated_input)
ans = tokenizer.decode(generated_ids[0], skip_special_token=True)
return ans
def main():
pdf_file_path = './Data/Aquila.pdf'
store_path = './Data/Aquila.faiss'
vector_store = load_or_create_vector_store(store_path, pdf_file_path)
model, tokenizer = load_llm(LLM_Model)
while True:
qiz = input('Please input question: ')
if qiz == 'bye' or qiz == 'exit':
print('Bye~')
break
# Query context from vector store based on question, and compose prompt
context = query_vector_store(vector_store, qiz, 6, 0.75)
if len(context) == 0:
# No satisfying context is found inside vector store
print('Cannot find qualified context from the saved vector store. Talking to LLM without context.')
prompt = f'Please answer the question: \n{qiz}\n'
else:
context = '\n'.join(context)
prompt = f'Based on the following context: \n{context}\nPlease answer the question: \n{qiz}\n'
ans = ask(model, tokenizer, prompt)[len(prompt):]
print(ans)
代码里面,事先加载了向量数据库、加载了大模型;然后在while循环里面,不停的让用户输入问题。根据输入的问题,去向量数据库查找相关的上下文。如果查找到了,则合到一起,发给大模型;否则将原始问题发给大模型。
完整的代码请查看:DeepLearning/Llama3_RAG.py at main · yuchuanwang/DeepLearning · GitHub
5. 问题
正如一开始所说的,RAG的道理很简单,但实际用起来,会发现里面有很多的地方需要去调参、研究。
比如说:
切分文本的时候,chunk_size和chunk_overlap取多少合适?
文本转向量时,使用哪个Embeddings模型最佳?
查找问题的相关上下文时,用欧式距离还是别的距离,比如余弦距离还是?
每个Embeddings模型,以多大的的相关度数值做为阈值合适?
如何评估RAG的整体效果?
等等等等……
真的是路漫漫其修远兮!
在大模型时代,我们如何有效的去学习大模型?
现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF书籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型各大场景实战案例
结语
【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈