了解大模型与 RAG 基本概念

和老莫一起学AI

于 2024-09-27 14:28:52 发布

阅读量318

点赞数 6

文章标签： pdf 算法开发语言人工智能 java ai 大模型

本文链接：https://blog.csdn.net/2401_85373691/article/details/142592701

版权

大模型概念

大模型是大规模语言模型(Large Language Model，LLM)的简称，它是一种神经网络模型，具有参数量大、训练数据量大、计算能力要求高、应用广泛等特点。对比传统人工智能模型，大模型具有以下特点：

参数量大。在参数规模上可能达到十亿、百亿、千亿级别，远超传统模型百级、千万级别参数规模。
训练数据量大。传统人工智能模型通过一定量的标注数据进行训练，而大模型通过海量数据及设计良好、内容多样的高质量标注语料库进行训练。
计算能力要求高。大模型很难在单个 GPU 上进行训练，需要使用 DeepSpeed、Megatron-LM 等训练优化技术在集群中进行分布式训练。

大模型发展历程

大模型发展至今主要经历发展初期、探索期、兴起期和井喷期四个阶段。

发展初期：2013年之前，主要依赖 RNN(循环神经网络) 和LSTM(长短期记忆网络)等序列模型解决具有序列特性数据的领域问题，其主要缺点是不可并行计算。
探索期：2013年 Google 公司提出的 Word2Vec是一种高效训练词向量的模型并一直流行到 2018年。2017年 Google 公司提出的 Transformer架构引入自注意力机制和位置编码，改进了 RNN 和 LSTM 无法并行的缺陷，2018年 Google 又推出 BERT(预训练语言表征模型)等模型，彻底超越 Word2Vec。
兴起期：OpenAI 公司于2019年推出具有 15亿个参数的 GPT-2，于2020年推出具有 1750亿个参数的 GP-3。
井喷期：2022年至今，越来越多的开源模型如 LLaMA、ChatGLM 相继发布。GPT-4、GTP-4V、文心大模型4.0 等将大模型的发展方向由语言模型引向通用性更强的多模态模型。2024年 OpenAI 公司发布文生视频大模型 Sora，能够准确理解用户指令中表达的需求并以视频形式进行展示。

大模型生成原理

大模型的核心生成原理是将输入的语句以词向量的表征形式传递给神经网络，通过编码器****/**解码器(Encoder/Decoder)、位置编码和自注意力机制**建立单词之间的联系。

输入的每个单词首先会与已经编码在模型中的单词进行相关性计算，然后把相关性以编码形式叠加在每个单词中。在获得各单词间的相关性后，模型以概率分数标记序列中下一个输出的单词的可能性，并选择最佳选项。比如下图中 movie 的概率最大，因此模型最终输出结果为 movie。

由多个最佳单词组成的句子可能并不通顺，为解决此问题，Transformer 使用 Beam Search(束搜索) 等方法来提高生成质量。这些方法不是只关注序列中的下一个单词，而是将更大的一组单词作为整体来考虑，同时考虑多个序列上的联合概率，如下图所示。

大模型关键技术

迁移学习

迁移学习(Transfer Learning)是指利用在源领域中训练好的模型，将其知识和能力迁移到新的目标领域，以解决该领域的问题。

零样本学习

零样本学习的核心在于使模型能够识别那些从未在训练集中出现过的数据类别，从而扩展模型的应用范围并增强其泛化能力。零样本学习经常与提示词协同使用，以优化模型的性能。

小样本学习

小样本学习是指大模型通过使用很少的样本来进行学习，经常与提示词配合使用。

持续学习

持续学习的核心思想是在一系列任务上训练模型，模型保留在旧任务上学习的知识并继续在新任务上进行训练。

多任务学习

多任务学习是一种联合学习方法，在这种方法中，模型通过对多个任务进行并行学习，共享表征信息，可以取得比训练单任务更好的表现。

RLHF(强化学习)

强化学习是指通过不断与环境交互、试错，最终完成特定目的或使得整体行动收益最大化的技术。

上下文学习

基于上下文学习，模型不根据下游任务来调整参数，而是连接下游任务的输入输出，以此作为提示词引导模型根据测试集的输入生成预测结果。

思维链

思维链是一种离散式的提示学习方法，可以提高模型在复杂任务上的性能。

提示工程

提示词对于模型的生成结果和质量具有重要影响，一个好的提示词可以帮助模型更好地理解用户的意图和需求，并生成更加准确、有针对性的回复。

RAG概念

检索增强生成 (Retrieval Augmented Generation，即RAG) 是指对大语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大语言模型（LLM）用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。

RAG作用

LLM 是一项关键的人工智能 (AI) 技术，为智能聊天机器人和其他自然语言处理 (NLP) 应用程序提供支持。目标是通过交叉引用权威知识来源，创建能够在各种环境中回答用户问题的机器人。不幸的是，LLM 技术的本质在 LLM 响应中引入了不可预测性。此外，LLM 训练数据****是静态的，并引入了其所掌握知识的截止日期。

LLM 面临的已知挑战包括：

在没有答案的情况下提供虚假信息。
当用户需要特定的当前响应时，提供过时或通用的信息。
从非权威来源创建响应。
由于术语混淆，不同的培训来源使用相同的术语来谈论不同的事情，因此会产生不准确的响应。

RAG 是解决其中一些挑战的一种方法。它会重定向 LLM，从权威的、预先确定的知识来源中检索相关信息。组织可以更好地控制生成的文本输出，并且用户可以深入了解 LLM 如何生成响应。RAG 技术在 LLM 的基础上带来了多项好处：

经济高效的实施。

聊天机器人开发通常从基础模型开始。基础模型（FM）是在广泛的广义和未标记数据上训练的 API 可访问 LLM。针对组织或领域特定信息重新训练 FM 的计算和财务成本很高。RAG 是一种将新数据引入 LLM 的更加经济高效的方法。它使生成式人工智能技术更广泛地获得和使用。

当前信息。

即使 LLM 的原始训练数据来源适合您的需求，但保持相关性也具有挑战性。RAG 允许开发人员为生成模型提供最新的研究、统计数据或新闻。他们可以使用 RAG 将 LLM 直接连接到实时社交媒体提要、新闻网站或其他经常更新的信息来源。然后，LLM 可以向用户提供最新信息。

增强用户信任度。

RAG 允许 LLM 通过来源归属来呈现准确的信息。输出可以包括对来源的引文或引用。如果需要进一步说明或更详细的信息，用户也可以自己查找源文档。这可以增加对您的生成式人工智能解决方案的信任和信心。

更多开发人员控制权。

借助 RAG，开发人员可以更高效地测试和改进他们的聊天应用程序。他们可以控制和更改 LLM 的信息来源，以适应不断变化的需求或跨职能使用。开发人员还可以将敏感信息的检索限制在不同的授权级别内，并确保 LLM 生成适当的响应。此外，如果 LLM 针对特定问题引用了错误的信息来源，他们还可以进行故障排除并进行修复。组织可以更自信地为更广泛的应用程序实施生成式人工智能技术。

RAG工作原理

如果没有 RAG，LLM 会接受用户输入，并根据它所接受训练的信息或它已经知道的信息创建响应。RAG 引入了一个信息检索组件，该组件利用用户输入首先从新数据源****提取信息。用户查询和相关信息都提供给 LLM，LLM 使用新知识及其训练数据来创建更好的响应。

创建外部数据

LLM 原始训练数据集之外的新数据称为_外部数据。它可以来自多个数据来源，例如 API、数据库或文档存储库。数据可能以各种格式存在，例如文件、数据库记录或长篇文本。另一种称为嵌入语言模型_的 AI 技术将数据转换为数字表示形式并将其存储在向量数据库中。这个过程会创建一个生成式人工智能模型可以理解的知识库。

检索相关信息

下一步是执行相关性搜索。**用户查询将转换为向量表示形式，并与向量数据库匹配。**例如，考虑一个可以回答组织的人力资源问题的智能聊天机器人。如果员工搜索_：“我有多少年假？”_，系统将检索年假政策文件以及员工个人过去的休假记录。这些特定文件将被退回，因为它们与员工输入的内容高度相关。相关性是使用数学向量计算和表示法计算和建立的。

增强 LLM 提示

接下来，RAG 模型通过在上下文中添加检索到的相关数据来增强用户输入（或提示）。此步骤使用提示工程技术与 LLM 进行有效沟通。增强提示允许大型语言模型为用户查询生成准确的答案。

更新外部数据

下一个问题可能是——如果外部数据过时了怎么办？要维护当前信息以供检索，请异步更新文档并更新文档的嵌入表示形式。您可以通过自动化实时流程或定期批处理来执行此操作。这是数据分析中常见的挑战——可以使用不同的数据科学方法进行变更管理。

下图显示了将 RAG 与 LLM 配合使用的概念流程。

零基础如何学习大模型 AI

领取方式在下方

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。