上个月,Google 在 Huggingface[1] 和 Kaggle[2] 上开源了两个新模型:datagemma-rag-27b-it 和 datagemma-rig-27b-it。其中新提出的 RIG(Retrieval Interleaved Generation)检索交错生成,提供了 LLM 与外部数据库交互的新思路。
RAG VS. RIG
熟悉 LLM 的同学都知道,LLM 是通过训练数据学习到的知识,因此使用大模型的时候会遇到“幻觉”和“过时”等问题,这都源于训练数据库没有包含相应的知识或者训练用的数据没有及时更新。考虑到 LLM 训练的昂贵的时间和金钱成本,在真是的应用中,通常会采用 RAG(Retrieval Augmented Generation)检索增强生成 技术来给 LLM “外挂” 一个最新的数据库,通过检索的方式利用 LLM 的能力来相应用户关于特定数据或最新数据的问题。
RAG 工作流程:
-
用户提交查询:用户向 LLM 提交查询或提示。
-
数据检索:LLM 将用户的查询转换数据库问题提交外部数据进行检索。
-
响应生成:LLM 依据内部拥有的知识库和检索到的结果进行答案的生成。
如图所示,当询问“再生资源的使用是否增加的时候?”,RAG 应用通过检索到的数据表进行数据获取,得到了数据准确的回答。
这次开源的 RIG 模型则采用了另一种模式 检索交错生成,这里的_交错_是指在生成部分响应和检索外部数据之间交替进行。该模型不会等待检索完所有数据后再生成响应;相反,它将这两个任务交错进行,因此检索和响应生成同时进行。
RIG 的流程可以分为几个关键步骤:
-
用户查询提交:用户向 LLM 提交查询或提示。
-
部分响应生成:LLM 开始根据它已经拥有的内部知识生成响应。但是,此响应可能包括需要外部数据的部分的占位符或推测性答案。
-
实时数据检索:当 LLM 识别到缺失或不完整的信息时,它会实时查询外部来源(例如,数据库、知识图谱或基于 Web 的 API)。该模型可以进行多次检索调用,从而使用新获取的数据丰富响应。
-
交错检索生成的:在生成响应期间,模型在生成响应的各个部分和根据需要获取数据之间动态交替。例如,如果 LLM 以“Renewable energy sources now …”开头,它会在完成该响应部分之前暂停以检索特定的再生资源利用率数字。
-
最终响应:一旦检索并整合了所有必要的数据,LLM 就会完成响应并将其返回给用户。
RIG 效果
Google 这次的两个开源模型都是针对 Data Commons 进行的优化和测试,旨在解决大模型和真实数字数据交互的场景。“Data Commons 是一个公开可用的知识图谱,包含数十万个统计变量中超过 2400 亿个丰富的数据点。它从联合国 (UN)、世界卫生组织 (WHO)、疾病控制和预防中心 (CDC) 以及人口普查局等受信任的组织获取这些公共信息。将这些数据集组合成一组统一的工具和 AI 模型,使政策制定者、研究人员和组织能够寻求准确的见解。”
同时,Google 也在Colab[3]开放了两个模型的 Notebook,方便体验。现在让我们看一下 RIG 在 Data Commmons 上的真实使用效果。
问题:What progress has Pakistan made against health goals?
datagemma-rig-27b-it 的回答:
Pakistan has made some progress against its health goals, but significant challenges remain. Here are some key points: Progress made: Increased life expectancy: Life expectancy at birth has increased from [DC#1(62.102 yr [1] || 61.8 years)] in 2000 to [DC#2(66.269 yr [2] || 67.2 years)] in 2020. Reduced maternal mortality: Maternal mortality ratio has declined from [DC#3(387.3715 Per 100,000 live births [3]* || 276 per 100,000 live births)] in 2000 to [DC#4(177.7277 Per 100,000 live births [4]* || 140)] in 2018. ... FOOTNOTES [1] - Per datacatalog.worldbank.org, value was 62.102 yr in 2000. See more at https://datacommons.org/explore#q=what%20was%20the%20life%20expectancy%20in%20Pakistan%20in%202000%3F&mode=toolformer_rig [2] - Per datacatalog.worldbank.org, value was 66.269 yr in 2020. See more at https://datacommons.org/explore#q=what%20was%20the%20life%20expectancy%20in%20Pakistan%20in%202020%3F&mode=toolformer_rig ...
在当前版本的 RIG 中,所有数值数据都有 DC 和 LLM 自生成两种来源,方便用户进行比较和筛选,同时每一个数据还会给出精确到条目的来源。
结论
从上述回答中可以看出,RIG 和 RAG 一样,主要作用是减少 LLM 使用时的幻觉,通过将实时数据检索与生成过程交织在一起,RIG 在形成响应时持续查询可信数据源,有助于模型将其输出建立在现实世界的事实信息中,从而显著降低幻觉的风险。
RIG 的另一个显著优势是它能够在生成响应的同时实时适应。与 RAG 在数据在生成响应之前仅检索一次不同, RIG 在响应生成期间是动态交错检索。如果 LLM 遇到多条缺失或不完整的信息,它可以迭代地获取数据,同时优化其响应。
在实际使用中,RIG 更能有效发挥小规模参数 LLM 的性能。RAG 将所有查询与结果单词输入 LLM,响应的答案严重依赖 LLM 上下文长度的处理能力。RIG 的路线只针对特定数据检索,对于上下文长度的处理能力要求更也更低;同时,RIG 对于检索不到的数据会使用占位符的形式提醒用户,其对提供的数值答案相对可靠性更强,更适合对数值数据要求高的敏感低功耗场景,如价格客服、金融服务和医疗服务等。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈