放心,你不会吃不透大模型(LLM)的……

在这里插入图片描述

第一周LLM基础篇

目前 主流的开源模型体系 有哪些?

第-种: prefix Decoder 系
·介绍:输入双向注意力,输出单向注意力
·代表模型:ChatGLM、ChatGLM2、U-PaLM
第二种:causalDecoder系
介绍:从左到右的单向注意力
·代表模型:LLaMA-7B、LLaMa衍生物
第三种:Encoder-Decoder
·介绍:输入双向注意力,输出单向注意力·代表模型:T5、Flan-T5、BART

为何现在的大模型大部分是Decoderonly结构?

因为decoder-only结构模型在没有任何微调数据的情况下,zero-shot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。
目前的LargeLM的训练范式还是在大规模语料shang做自监督学习,很显然zeroshot性能更好的decoder-only架构才能更好的利用这些无标注的数据。

大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在

低秩的问题,这可能会削弱模型的表达能力。就生成任务而言引入双向注意力并无实质的好处。而Encoderdecoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了

第二周LLM进阶面

一、什么是生成式大模型?
二、大模型是怎么让生成的文本丰富而不单调的呢?
三、LLMs 复读机问题
·3.1什么是 LLMs 复读机问题?
·3.2 为什么会出现 LLMs 复读机问题?
3.3 如何缓解 LLMs 复读机问题?
.3.3.1 Unlikelihood Training
·3.3.2引入噪声
3.3.3 Repetition Penalty
3.3.4 Contrastive Search
3.3.5 Beam Search
.3.3.6 TopK sampling
3.3.7 Nucleus sampler
3.3.8 Temperature
3.3.9 No repeat ngram size
·3.3.10 重复率指标检测
·3.3.11后处理和过滤
·3.3.12 人工干预和控制
·四、llama系列问题
·4.1llama输入句子长度理论上可以无限长吗?·

五、什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型咋选?
·六、各个专业领域是否需要各自的大模型来服务?
·七、如何让大模型处理更长的文本?

第三周微调面

·1.如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
·2.为什么SFT之后感觉LLM傻了?
·3.SFT 指令微调数据 如何构建?
4.领域模型Continue PreTrain 数据选取?
5.领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?
6.领域模型Continue PreTrain,如何让模型在预训练过程中就学习到更多的知识?
·7.进行SFT操作的时候,基座模型选用Chat还是Base?
8.领域模型微调 指令&数据输入格式 要求?
·9.领域模型微调 领域评测集 构建?
·10.领域模型词表扩增是不是有必要的?
·11.如何训练自己的大模型?
·12.训练中文大模型有啥经验?
·13.指令微调的好处?
·14.预训练和微调哪个阶段注入知识的?
·15.想让模型学习某个领域或行业的知识,是应该预训练还是应该微
调?
·16.多轮对话任务如何微调模型?
·17.微调后的模型出现能力劣化,灾难性遗忘是怎么回事?
·18.微调模型需要多大显存?
·19.大模型LLM进行SFT操作的时候在学习什么?
20.预训练和SFT操作有什么不同
·21.样本量规模增大,训练出现OOM错
,22.大模型LLM进行SFT 如何对样本进行优化?
·23.模型参数迭代实验

第四周LangChain面

1.什么是 LangChain?
LangChain是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口,可简化创建由大型语言模型(LLM)和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如API和数据库。

  1. LangChain 包含哪些 核心概念?
    2.1 LangChain 中 Components and Chains 是什么?注:-个 Chain 可能包括一个 Prompt 模板、一个语言模型和一个输出解析器,它们一起工作以处理用户输入、生成响应并处理输出。
    2.2 LangChain 中Prompt Templates and Values 是什么?
    2.3 LangChain 中 Example Selectors 是什么?
    2.4 LangChain 中 Output Parsers 是什么?
    2.5 LangChain 中Indexes and Retrievers 是什么?Index:一种组织文档的方式,使语言模型更容易与它们交互;Retrievers:用于获取相关文档并将它们与语言模型组合的接口;注:LangChain 提供了用于处理不同类型的索引和检索器的工具和功能,例如矢量数据库和文本拆分器

第五周Agent面

一、什么是大模型(LLMs) agent?
·二、大模型(LLMs)agent有哪些部分组成?
·2.1介绍一下规划(planning)?
·2.1.1拆解子目标和任务分解
·2.1.1.1如何进行 拆解子目标和任务分解?
·2.1.1.2 拆解子目标和任务分解 有哪些方法?
·2.1.2 模型自我反省
·2.1.2.1 如何进行 模型自我反省?
2.1.2.2 模型自我反省 有哪些方法?
2.2介绍一下记忆(Memory)?
·2.3介绍一下 工具使用(tooluse)?
三、大模型(LLMs)agent主要 利用了大模型 哪些能力?
·四、结合 代码 讲解 大模型(LLMs)agent思路?·4.1思路介绍
·4.2 实例一:利用大模型判断做选择
·4.3实例二:让大模型通过判断正确选择函数工具并输出
·4.4实例三: agent模板和解析
·4.5 实例四:将 skylark接入langchain 中测试 agent
五、如何给LLM注入领域知识?
六、常见LLM Agent框架或者应用 有哪些?

第六周大模型幻觉篇

一、什么是 大模型幻觉问题?
1.1 大模型幻觉问题定义
1.2 何为 Faithfulness and Factualness?
1.3针对不同任务,幻觉的定义有何差异?
eg:摘要的数据源是document,data-to-text的数据源是datatable,对话的数据源是对话历史,而开放域对话的数据源可以是世界知识;
在摘要、 data-to-text任务中,非常看重response的Faithfulness,因此这些任务对幻觉的容忍程度很低;
而像开发域对话任务中,只需要response符合事实即可,容忍程度较高;
1.4传统任务中的模型幻觉 vS LLMs 中模型幻觉二、为什么 会 出现 大模型幻觉问题?
2.1 从 数据角度 进行分析
在 数据构建过程中,由于以下问题,导致 模型幻觉的 发生:引用至[3] Deduplicating training data makes language modelsbetter
2.2 从 模型角度 进行分析
不止是 数据角度问题,大模型幻觉问题 出现的原因 还 表现在 模型角度。
·定义:当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为
模型出现了幻觉的问题。
Faithfulness:是否遵循input content;
·Factualness:是否符合世界知识;
1.数据源(source)不一致问题
1.容忍幻觉的程度不一致问题

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值