在AI技术的浪潮中,大模型以其强大的问题回答能力,正逐渐渗透到各行各业,成为推动行业发展的新引擎。然而,大模型并非万能,它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制,本文将带你深入了解如何利用检索增强生成模型(RAG)来扩展大模型的能力,并通过一个实战案例,展示如何构建一个基于RAG的AI知识库。
一、大模型的局限与RAG的机遇
大模型虽然在处理通用问题上表现出色,但在面对实时数据和私有领域知识时,却显得力不从心。为了解决这一问题,RAG技术应运而生。RAG通过构建知识库,动态补充大模型的知识储备,使其能够回答更多问题,从而增强其应用范围和深度。
二、RAG构建流程详解
构建一个基于RAG的AI知识库,可以分为以下五个步骤:
1.文档加载与文本提取
我们将借助pdfminer库中的三个强大工具来处理PDF文档,以便于我们能够更高效地提取和处理所需信息。
(1)pdfminer.six:这是一个多功能库,专门设计来处理PDF文档。它的核心功能包括从PDF文件中提取文本和布局信息,让我们能够以编程的方式自动化处理PDF文档,极大地提高了工作效率。
(2)pdfminer.high_level:作为PDFMiner的高级接口,此工具为我们提供了一套简化的方法来处理PDF文档。它特别适合于执行高级文档处理任务,如文本提取和页面信息获取,使得我们能够快速访问和操作PDF中的文本内容。
(3)pdfminer.layout:这是PDFMiner库的一个组成部分,专注于解析和处理PDF文档的布局信息。它能够识别文本在页面上的确切位置、字体样式等细节,对于需要根据页面布局进行特定处理的场景来说,是一个非常有用的工具。
通过这三个工具的协同工作,我们能够将PDF文档中的数据转换成可供程序进一步分析和利用的格式,为后续的知识库构建和信息检索打下坚实的基础。
在控制台输入:
`#调用包管理工具即可下载: pip install pdfminer.six`
把对应的工具导入代码文件中,接下来就可以写主体的代码了:
`from pdfminer.high_level import extract_pages from pdfminer.layout import LTTextContainer def``extract_text_from_pdf``(filename, page_numbers=None, min_line_length=1):` `'''从 PDF 文件中(按指定页码)提取文字'''` `paragraphs = [] buffer =` `''` `full_text = '' # 提取全部文本 for i, page_layout in enumerate(extract_pages(filename)): # 如果指定了页码范围,跳过范围外的页 if page_numbers is not None and i not in page_numbers: continue for element in page_layout: if isinstance(element, LTTextContainer): full_text += element.get_text() +` `'\n'` `# 按空行分隔,将文本重新组织成段落 lines = full_text.split(``'\n'``)`
使用pdfminer库中的extract_pages函数从指定的PDF文件中提取页面布局信息。
遍历每个页面的布局信息,仅保留文本容器LTTextContainer类型的元素,并将其文本内容拼接成一个完整的文本字符串full_text。
`for text in lines: if len(text) >= min_line_length: buffer += (``' '``+text) if not text.endswith(``'-'``) else text.strip(``'-'``) elif buffer: paragraphs.append(buffer) buffer =` `''` `if buffer: paragraphs.append(buffer) return paragraphs paragraphs = extract_text_from_pdf(``"llama2.pdf"``, min_line_length=10) for para in paragraphs[:3]: print(para+``"\n"``)`
在处理PDF文档转换为可编辑文本的过程中,我们采取了一系列精细化的步骤来优化文本的质量和结构。以下是我们实施的文本处理流程:
(1)文本分段
我们首先将连续的文本字符串依据空行作为分隔符,划分成独立的段落。这一步骤确保了文本的可读性,使其更贴近自然阅读的习惯。
(2)过滤短行
通过设定一个min_line_length参数,我们对文本进行过滤,忽略掉那些长度不足的行。这一策略有助于去除文档中的噪声,比如页脚或页眉中的简短文字。
(3)连字符处理
对于以连字符结尾的行,我们采取了特殊的合并策略。如果一个断行以连字符结束,我们会将其与下一行相连,以保持文本内容的完整性。
(4)文本重组
在完成上述步骤后,我们得到了一个经过重组的文本段落列表。这个列表中的每个元素都是一个经过清洗和重组的段落,它们构成了我们知识库的基础。
在整个流程中,我们利用了pdfminer库的extract_pages函数来提取PDF文件的页面布局信息。我们遍历了每个页面中的文本容器,并将这些容器中的文本内容串联起来,形成了一个完整的文本字符串。随后,我们对这些文本进行了细致的组织和切割,最终生成了一个整洁、结构化的文本段落列表,为后续的信息检索和知识库构建提供了高质量的数据源。
2. 接口引擎搭建
在构建高效知识检索系统的过程中,我们引入了两个强大的工具:elasticsearch7和NLTK (Natural Language Toolkit)。下面,让我们深入了解它们各自的功能和应用。
(1)elasticsearch7
这是Elasticsearch的官方Python客户端库,它充当着与Elasticsearch服务器交互的桥梁。在Python应用中,我们通过它与Elasticsearch集群进行通信,执行包括搜索、索引创建和更新在内的各种操作。Elasticsearch作为一个分布式搜索引擎,以其在全文搜索和日志分析等领域的广泛应用而闻名。
(2)NLTK (Natural Language Toolkit)
这是自然语言处理(NLP)领域的一个综合性库,它提供了一系列工具和资源,专门用于处理和分析人类语言数据。NLTK在文本处理、分词、词性标注、语法分析等NLP任务中发挥着重要作用。此外,它还包含了大量的语料库和算法,极大地简化了使用Python进行NLP开发的复杂性。
装备了这两个工具,我们能够更加方便地从知识库中检索内容,并精准地提取出所需的信息。为了将这些工具集成到我们的工作流程中,我们通过包管理工具进行了安装和加载。
通过这样的技术栈配置,我们不仅能够构建一个强大的知识检索系统,还能够在自然语言处理方面进行深入的分析和应用,从而为我们的AI知识库提供坚实的技术支撑。
`pip install elasticsearch pip install nltk`
接下来的代码主要涉及与Elasticsearch的交互,包括建立索引、将文本数据灌入索引以及执行搜索操作。以下是具体的步骤:
`#文本处理与关键词提取 from elasticsearch7 import Elasticsearch, helpers from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize from nltk.corpus import stopwords import nltk import re nltk.download(``'stopwords'``) import warnings warnings.simplefilter(``"ignore"``) # 屏蔽 ES 的一些Warnings nltk.download(``'punkt'``) # 英文切词、词根、切句等方法 nltk.download(``'stopwords'``) # 英文停用词库 def` `to_keywords``(input_string):` `'''(英文)文本只保留关键字'''` `# 使用正则表达式替换所有非字母数字的字符为空格 no_symbols = re.sub(r``'[^a-zA-Z0-9\s]'``,` `' '``, input_string) word_tokens = word_tokenize(no_symbols) # 加载停用词表 stop_words = set(stopwords.words(``'english'``)) ps = PorterStemmer() # 去停用词,取词根 filtered_sentence = [ps.stem(w) for w in word_tokens if not w.lower() in stop_words] return` `' '``.join(filtered_sentence)`
在文本处理的过程中,我们巧妙地利用了NLTK库的强大功能。我们的工作流程包括几个关键步骤:首先,通过PorterStemmer进行词干提取,这一过程剥离了单词的前缀和后缀,将它们还原到最基本的形式;接着,我们采用word_tokenize进行分词处理,将连续的文本分解成单独的词汇单元;最后,通过stopwords去除常见的停用词,这些词汇在语言中普遍出现,但对于精确搜索和分析往往贡献有限。
此外,我们还利用了Python标准库中的re模块来处理正则表达式,这使得我们能够从文本中精准地提取出关键词,为后续的语义分析和信息检索打下坚实基础。
`# 创建索引 es.indices.create(index=index_name) # 灌库指令 actions = [ {` `"_index"``: index_name,` `"_source"``: {` `"keywords"``: to_keywords(para),` `"text"``: para } } for para in paragraphs ] #文本灌库 helpers.bulk(es, actions)`
在上面的代码中,我们使用列表推导式构建actions列表,其中每个元素是一个字典,包含了索引名称、关键词和原始文本。每个段落的关键词是通过前面定义的to_keywords函数处理得到的。最后使用helpers.bulk函数将文本数据批量灌入Elasticsearch索引。
接下来我们需要定义一个search函数,用于执行基于关键词的搜索操作。使用search函数执行搜索,指定查询字符串和返回结果的数量。将搜索结果中的文本内容提取出来,并打印输出。接下来我们看一下如何实现定义搜索函数:
`def` `search``(query_string, top_n=3): # ES 的查询语言 search_query = {` `"match"``: {` `"keywords"``: to_keywords(query_string) } } res = es.search(index=index_name, query=search_query, size=top_n) return [hit[``"_source"``][``"text"``] for hit in res[``"hits"``][``"hits"``]] results = search(``"how many parameters does llama 2 have?"``, 2) for r in results: print(r+``"\n"``)`
完成接口引擎开发之后,接下来我们就要对接口封装。
3. 接口封装与OpenAI GPT-3.5-turbo模型交互
这一部分涉及到与OpenAI GPT-3.5-turbo模型的交互,以及封装与OpenAI的通信过程:
`from openai import OpenAI import os # 加载环境变量 from dotenv import load_dotenv, find_dotenv _ = load_dotenv(find_dotenv()) # 读取本地 .env 文件,里面定义了 OPENAI_API_KEY client = OpenAI() def` `get_completion``(prompt, model=``"gpt-3.5-turbo"``):` `'''封装 openai 接口'''` `messages = [{``"role"``:` `"user"``,` `"content"``: prompt}] response = client.chat.completions.create( model=model, messages=messages, temperature=0, # 模型输出的随机性,0 表示随机性最小 ) return response.choices[0].message.content`
以上代码,使用python-dotenv库加载环境变量,其中包含了OpenAI API的密钥。使用openai库中的OpenAI类创建一个OpenAI API的客户端。定义get_completion函数,该函数接收一个提示(prompt)并调用OpenAI API的聊天补全接口,获取模型生成的回复。最后使用get_completion函数调用OpenAI GPT-3.5-turbo模型,传入之前构建的中文提示(这里要自己构建一个Prompt模板)。设置temperature参数可以自己设置,建议设为0,以最小化模型生成输出的随机性。
接下来是大模型的必知必会应用Prompt,Prompt用好你会发现让你在开发上和工作期间让你提效翻倍,在RAG应用过程中Prompt应用也是必不可少的,接下来我们看看Prompt模版应用。
4. Prompt模板构建
构建一个符合中文对话语境的Prompt模板,用于生成问题并提供已知信息。
`def` `build_prompt``(prompt_template, **kwargs):` `'''将 Prompt 模板赋值'''` `prompt = prompt_template for k, v in kwargs.items(): if isinstance(v, str): val = v elif isinstance(v, list) and all(isinstance(elem, str) for elem in v): val =` `'\n'``.join(v) else: val = str(v) prompt = prompt.replace(f``"__{k.upper()}__"``, val) return prompt prompt_template =` `"""`
具体来说, 定义一个名为 build_prompt 的函数,该函数接收一个 Prompt 模板和一组关键字参数。使用关键字参数填充模板中的占位符,占位符以 __ 开头,后跟大写字母标识符。这些占位符包括 __INFO__ 和 __QUERY__。他们的名称无所谓,主要是方便我们之后填充内容即可。
5. RAG正式运行
在下面的代码中,我们定义了一个用户查询的字符串, 使用之前定义的搜索函数 search 对用户查询进行基于关键词的搜索,返回搜索结果。使用build_prompt 函数,将搜索结果和用户查询组装成一个用于 OpenAI 模型的输入 Prompt。
`user_query =` `"how many parameters does llama 2 have?"`` # 1. 检索 search_results = search(user_query, 2) # 2. 构建 Prompt prompt = build_prompt(prompt_template, info=search_results, query=user_query) print(``"===Prompt==="``) print(prompt) # 3. 调用 LLM response = get_completion(prompt) print(``"===回复==="``) print(response)`
到这里,我们就完成了整个流程的开发,接下来我们就对每个环节进行一个简短的提炼总结,一起来梳理一下整个实现过程。
三、实战案例分析
本文中,我们将通过一个实战案例,展示如何应用上述步骤构建一个基于RAG的AI知识库。从文档的加载与切割,到接口引擎的搭建,再到Prompt模板的构建和RAG的正式运行,每一步都精心设计,以确保最终的AI知识库能够精准地回应用户的查询。
四、总结与展望
通过以上五个步骤,我们成功构建了一个简单的AI知识库。在实践中,我们可以结合自己的业务需求,构建不同领域的AI知识库,使自己的AI更加强大。这不仅能够实现技术提升,还能拓展新的技术领域,与实际业务相结合,进行不断的迭代和升级。
五、结语
大模型的时代已经到来,而RAG技术的应用,为我们打开了一扇通往更深层次AI应用的大门。希望通过本文的分享,能够激发你对大模型和RAG技术的兴趣,并在你的技术道路上提供帮助和启发。欢迎在评论区交流讨论,共同探索AI技术的无限可能。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
路线图很大就不一一展示了 (文末领取)
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
👉GitHub海量高星开源项目👈
💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告(持续更新)👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓