WeKnow-RAG:结合网络搜索和知识图谱的自适应检索增强生成方法

1. 引言

大型语言模型(LLMs)在近年来取得了巨大的进展,展现出了成为通用人工智能(AGI)重要途径的潜力。然而,LLMs也面临着一些挑战,最突出的是它们容易产生事实不正确的信息,甚至生成"幻觉"内容,这严重影响了它们在实际场景中的可靠性。

为了解决这些问题,研究人员提出了检索增强生成(RAG)方法。RAG通过结合外部数据库和信息检索机制来增强LLMs的能力。本文提出的WeKnow-RAG方法更进一步,将网络搜索和知识图谱整合到RAG系统中,旨在提高LLM响应的准确性和可靠性。

2. WeKnow-RAG方法概述

WeKnow-RAG的核心思想是结合知识图谱的结构化表示和密集向量检索的灵活性。该方法主要包含以下几个关键组件:

  1. 基于网络的RAG

  2. 基于知识图谱的RAG

  3. 集成方法

让我们逐一深入了解这些组件。

2.1 基于网络的RAG

基于网络的RAG是WeKnow-RAG的重要组成部分,它包括以下几个步骤:

2.1.1 网页内容解析

首先,我们需要对网页内容进行解析,以便后续处理。这里使用了BeautifulSoup库来解析HTML源代码:

from bs4 import BeautifulSoup      def parse_html(html_content):       soup = BeautifulSoup(html_content, 'html.parser')       # 提取需要的内容       text = soup.get_text()       return text   
2.1.2 分块

分块是将文档分割成多个段落的过程。WeKnow-RAG采用了基于token的分块方法。以下是一个简单的分块示例:

def chunk_text(text, chunk_size=500):       tokens = text.split()       chunks = []       for i in range(0, len(tokens), chunk_size):           chunk = ' '.join(tokens[i:i+chunk_size])           chunks.append(chunk)       return chunks   
2.1.3 多阶段检索

WeKnow-RAG采用了多阶段检索方法,包括稀疏检索和密集检索:

  1. 第一阶段:使用BM25算法进行稀疏检索

  2. 第二阶段:结合稀疏检索(BM25)和密集检索(embedding similarity)

BM25算法的评分函数如下:

Score(query, C_i) =(q_j ∈ query) IDF(q_j) · (f(q_j, C_i) · (k_1 + 1)) / (f(q_j, C_i) + k_1 · (1 - b + b · |C_i| / avg_dl))   

其中:

  • q_j 是查询中的一个词

  • IDF(q_j) 是词 q_j 的逆文档频率

  • f(q_j, C_i) 是词 q_j 在文档 C_i 中的词频

  • k_1 和 b 是参数(通常 k_1 = 1.5, b = 0.75)

  • |C_i| 是文档 C_i 的长度

  • avg_dl 是语料库中的平均文档长度

2.1.4 答案生成与自评估

为了减少幻觉,WeKnow-RAG引入了一个自评估机制。LLM会对生成的答案进行置信度评估:

def generate_answer_with_confidence(query, context):       prompt = f"""       Question: {query}       Context: {context}              Answer the question and provide your confidence level (high, medium, low).       """       response = llm.generate(prompt)       # 解析响应,提取答案和置信度       return answer, confidence   

2.2 基于知识图谱的RAG

知识图谱(KG)在WeKnow-RAG中扮演着重要角色,主要包括以下步骤:

2.2.1 领域分类

首先,系统会对问题进行领域分类:

def classify_domain(query):       prompt = f"Classify the domain of this query: {query}"       domain = llm.generate(prompt)       return domain   
2.2.2 查询生成

根据领域分类结果,系统会生成相应的知识图谱查询:

def generate_kg_query(query, domain):       if domain == "music":           prompt = f"""           Generate a KG query for this music-related question: {query}           Available functions:           - get_artist_info(artist_name, info_type)           - get_song_info(song_name, info_type)           ...           """       # 其他领域的处理逻辑       kg_query = llm.generate(prompt)       return kg_query   
2.2.3 答案检索与后处理

系统通过API调用知识图谱获取候选答案,然后进行后处理:

def retrieve_and_postprocess(kg_query):       raw_result = kg_api.call(kg_query)       processed_result = postprocess(raw_result)       return processed_result   

2.3 集成方法

WeKnow-RAG采用了一种自适应框架,根据不同领域的特点和信息变化速度,智能地结合基于KG的RAG方法和基于Web的RAG方法:

def adaptive_rag(query):       domain = classify_domain(query)       if domain in ["encyclopedia", "open_domain"]:           return kg_based_rag(query)       elif domain in ["music", "movies"]:           kg_result = kg_based_rag(query)           web_result = web_based_rag(query)           return integrate_results(kg_result, web_result)       else:           return web_based_rag(query)   

3. 实验结果

WeKnow-RAG在CRAG(Comprehensive RAG Benchmark)数据集上进行了评估。以下是一些关键的实验结果:

模型版本准确率幻觉率缺失率得分
版本10.3930.3190.2880.0743
版本20.4090.3160.2760.0929

从表格中我们可以看到,WeKnow-RAG的版本2相比版本1有了显著的提升,特别是在准确率和得分方面。

4. 结论与未来展望

WeKnow-RAG通过结合网络搜索和知识图谱,提出了一种新颖的检索增强生成方法。该方法在提高LLM响应的准确性和可靠性方面取得了显著成效。主要贡献包括:

  1. 开发了一个适应不同查询类型和领域的特定领域KG增强RAG系统

  2. 引入了结合稀疏检索和密集检索的多阶段网页检索方法

  3. 实现了LLM的自评估机制,减少了幻觉现象

  4. 提出了一个自适应框架,智能地结合基于KG和基于Web的RAG方法

未来的研究方向可能包括:

  • 进一步优化知识图谱的构建和更新策略

  • 探索更高效的多模态检索方法

  • 研究如何将WeKnow-RAG应用于更广泛的领域和任务

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 29
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值