大语言模型LLM
文章平均质量分 87
大语言模型LLM,关键技术分析。
AI生成曾小健
AI生成式技术,计算机博士;这个博客的主题主要是AI生成式技术、AI相关技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
如果需要看商科/金融相关的请移步CSDN: 量化交易曾小健(金融号)
展开
-
微软多部门联合推出GraphRAG项目:全面性和多样性方面显著优于原生大模型RAG
传统的RAG方法适用于局部文本检索任务,但。原创 2024-04-26 15:05:38 · 344 阅读 · 0 评论 -
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
从最低分辨率(比如1×1)的token map开始,预测下一级分辨率(比如4×4)的完整token map,并以此类推,直到生成最高分辨率的token map(比如256×256)。第二阶段,主要是对VAR Transformer的训练,通过预测更高分辨率的图像,来进一步优化模型。另外,在每个尺度内,VAR是并行地预测所有位置的token,而不是线性逐个预测,这大大提高了生成效率。研究人员指出,采用这样的方法,VAR更符合人类视觉感知从整体到局部的特点,并能保留图像的空间局部性。原创 2024-04-26 10:33:36 · 842 阅读 · 0 评论 -
强化学习之遇到的面试问题总结
大致都是前段时间面试时候所遇到的一些面试问题,也算是强化学习的基础吧「毕竟手撕DQN A3C、推个TRPO不都成为基本操作了吗(扭头)」,整理了下放在这里,问题包括:「1.蒙特卡洛、TD、动态规划的关系」「2. DQN的几个改变」「3.深度强化学习中的DQN和A3C」「4.策略梯度的推导(存在的问题)」「5.策略梯度和actor-critic的对比」「6. A3C和DDPG」还有就是一些笔试时候问道的问题;其他顺带在开头吐槽一下:看到公式里面出现其实就是。原创 2024-04-25 22:35:57 · 812 阅读 · 0 评论 -
请你解释PPO在大语言模型和机器人学还有高频股票市场中的具体应用,比方说Agent、Environment、Reward、State分别代表什么?具体如何应用
PPO(Proximal Policy Optimization)是一种流行的强化学习算法,由OpenAI开发。这种算法特别适合于需要平衡探索(Exploration)和利用(Exploitation)的场景,其核心优势在于简单、高效、易于实现,并且在多种任务中都表现出良好的性能。PPO的应用跨越多个领域,其共同点在于通过与环境的交互来不断学习和优化策略,以达到特定的目标。不同领域对Agent、Environment、Reward、State的具体定义有所不同,但核心的强化学习框架保持一致。原创 2024-04-25 22:22:00 · 447 阅读 · 0 评论 -
图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-04-25 22:14:20 · 686 阅读 · 1 评论 -
One Model, Any Relationships!港大等最新图大语言模型HiGPT
本工作引入了HiGPT,一个通用而多功能的图模型,它能够从各种异质图中学习,而无需下游微调过程。为了解决异质性的分布偏移,我们提出了一个上下文异质图tokenizer,它能够捕捉不同异质图中的语义关系,从而实现模型的无缝适应。通过将异质性感知的图指令集成到我们的HiGPT中,该模型变得精通于理解复杂的关系异质性,并准确地区分各种类型的图token。我们所提出的框架在各种场景下经过了广泛的评估,表现出了出色的泛化性能。原创 2024-04-24 15:04:42 · 989 阅读 · 0 评论 -
LlamaFactory源码解析 PPO
通过,研究人员和开发者可以更有效地在各种NLP任务中实现和测试PPO和其他强化学习技术的应用。这个类提供了一个灵活的框架,不仅支持标准的模型训练和微调,还允许通过强化学习方法来优化生成的文本,使其更具有目标导向和应用适应性。原创 2024-04-23 17:04:02 · 1654 阅读 · 1 评论 -
大模型面试一日一问:介绍下QLoRA算法
原创 芝士AI吃鱼芝士AI吃鱼QLoRA(Quantized Low-Rank Adaptation)算法是一种针对大型预训练语言模型(如GPT-3、BERT等)的高效微调方法,旨在减少微调过程中的内存占用,同时保持或接近全精度微调的性能。QLoRA算法的核心原理是在保持预训练模型权重不变的情况下,通过引入低秩适配器(LoRA)和量化技术来适应特定任务。这种方法通过量化预训练模型的权重到4位精度,并在每个Transformer层中添加小型的可学习适配器。原创 2024-04-23 15:46:56 · 359 阅读 · 0 评论 -
预测式AI即将来到,你准备好了么?
当 life2vec 尝试预测你的未来时,如你的健康状况或可能的工作类型时,它会参考这个快照中的数据。它不仅关注一些显而易见的信息,如你的年龄、自我保健情况或收入,也能察觉到一些不太明显的细节,如你的工作类型及其对未来可能的影响。预测式 AI 的未来也会如此吗?同样,预测式 AI 的预测可能受到历史数据固有偏见的影响,导致不准确或误导性的未来预测,这可能会导致基于错误建议的糟糕规划或潜在的灾难性结果。这些预测可能引发新的问题,并引导你探索以前未曾考虑过的领域,帮助你理解这些 AI 对你未来预测背后的原因。原创 2024-04-22 13:57:23 · 740 阅读 · 0 评论 -
24年大模型面试准备13 | 国产大模型的导师或内核——LLaMA v1和v2
因此。原创 2024-04-21 00:12:04 · 936 阅读 · 0 评论 -
混合专家模型 (MoE) 详解
混合专家模型 (MoEs):与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比,具有更快的推理速度需要大量显存,因为所有专家系统都需要加载到内存中在微调方面存在诸多挑战,但 近期的研究 表明,对混合专家模型进行指令调优具有很大的潜力。让我们开始吧!模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型。原创 2024-04-20 23:40:47 · 1015 阅读 · 0 评论 -
谷歌Gemini1.5火速上线:MoE架构,100万上下文
Gemini 1.5 Pro 还展示了令人印象深刻的 “上下文学习(in-context learning)” 技能,这意味着它可以从长提示中给出的信息中学习新技能,而不需要额外的微调。在 NIAH 评估中,故意将包含特定事实或陈述的一小段文本放置在很长的文本块中,1.5 Pro 99% 的时间都能找到嵌入的文本,在数据块中如下只要 100 万个 token。当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro 可以识别 44 分钟的巴斯特基顿无声电影中的场景。原创 2024-04-20 23:34:07 · 742 阅读 · 0 评论 -
sft的时代过去了?融合监督微调和偏好对齐的新算法orpo来了
ORPO是一种的新的微调技术,将传统的监督微调和偏好对齐阶段结合到一个过程中。这减少了训练所需的计算资源和时间。在上面链接中有个colab实现了使用orpo微调llama3-8b。日更,近3天较实用的论文速读,这里的选文真的很干很前沿!虽然 SFT 有效地使模型适应所需的领域,但它无意中增加了与。对比最上面一张图训练过程中y_w和y_l的gap出现了。实现原理非常简单,如下图,在正常的sft损失基础上,上OPT-350M模型中选择和拒绝答案的对数概率。和拒绝输出的可能性之间的差距。的概率要远大于y_l。原创 2024-04-20 23:19:48 · 259 阅读 · 0 评论 -
重读MedPrompt,怎么让个通用大模型能懂专业知识的提示词框架
MedPrompt由微软研究人员开发的一个提示工程框架,利用多个组件来实现结果。三个主要组件是:动态小样本、自动生成的思维链 (CoT) 和选择随机集合。本文将在下一节中深入探讨每个问题。虽然最初是为了测试医疗基准而开发的,但 MedPrompt 可以应用于任何领域,并且具有易于为任何团队实施的模块化组件。原创 2024-04-20 19:29:13 · 596 阅读 · 0 评论 -
Llama 3 微调项目实践与教程(XTuner 版)
到此为止我们就让 Llama3 具备了“他是由SmartFlowAI 打造的人工智能助手”的个人认知,本文演示平台为 InternStudio,如其他平台只需适当调整相关路径也能比较顺畅的运行起来,XTuner 玩转 Llama3 图片理解更多玩法请参考:https://github.com/SmartFlowAI/Llama3-XTuner-CN/ (欢迎 Star),同时本周天晚 8 点我们邀请了书生·浦语众多社区大佬一起来分享,欢迎预约直播一起讨论。或者软链接 InternStudio 中的模型。原创 2024-04-20 19:24:11 · 683 阅读 · 0 评论 -
通用基座大模型是否可以超越领域专有大模型?微软最新论文证明这是可以的!微软最新动态Prompt技术——MedPrompt详解
在微软的案例中,具体来说,就是为GPT-4准备医学领域的预训练数据,在GPT-4回答用户领域问题之前,先通过检索的方法从训练数据中找到近似的问答结果,然后构造few-shot案例,嵌入用户的输入中,再让模型回答问题。这个过程发生在预处理阶段,将所有的领域数据通过自生成思维链技术进行处理,生成一个更加优质的Prompt示例,这样在动态few-shot选择的时候可以获得更加高质量的prompt模板。通过这种方法,研究者能够减少模型在回答多项选择题时对特定选项位置的偏好,从而提高答案的准确性和模型的可靠性。原创 2024-04-20 19:19:01 · 769 阅读 · 0 评论 -
LeCun最新专访:AGI底座应从概率统计升级到逻辑推理JEPA架构
Lex Fridman,生于1983年8月15日,是一位俄罗斯裔美国计算机科学家和播客主持人。他主持Lex Fridman播客,在播客中他采访科学、技术、体育和政治等各个领域的知名人士嘉宾。Fridman于2018年开始了他的播客,并于2019年声名鹊起,此前他与人合著了一项未经同行评审的研究,该研究得出结论,驾驶员在使用特斯拉的半自动驾驶系统时保持专注,该系统得到了埃隆·马斯克的积极回应,但受到了人工智能专家们的批评。原创 2024-04-20 19:10:18 · 966 阅读 · 0 评论 -
RAG应用的典型工作流程
在总结中,我们看到了 RAG(检索增强生成)系统的快速进步,这包括了能够定制并推动 RAG 在多个领域性能和实用性进一步提高的先进范式的开发。例如,通过适应性增强检索技术(AAR(opens in a new tab)),REPLUG(opens in a new tab),和UPRISE(opens in a new tab)等方式来实现。这些工具和服务的开发,不仅推动了 RAG 技术的应用范围扩展,也为研究人员和开发者提供了更多的可能性,使他们能够更容易地探索和实现复杂的 RAG 应用。原创 2024-04-19 18:26:03 · 608 阅读 · 0 评论 -
【大模型】「RAG,Retrieval-Augmented Generation」检索增强生成-全流程
检索增强生成(Retrieval Augmented Generation),简称 RAG,已经成为当前最火热的LLM应用方案。它是一个为大模型提供外部知识源的概念,这使它们能够生成准确且符合上下文的答案,同时能够减少模型幻觉。原创 2024-04-19 18:18:37 · 785 阅读 · 0 评论 -
Loss 才是涌现的关键,而非模型参数!!!
其次以pre-training loss的视角研究涌现能力的缺点是,pre-training loss受到分词器和预训练语料库分布的影响。一个可能的解决方案是在一个公共验证集上评估不同的语言模型,使用归一化的困惑度来考虑不同的词汇量。换句话说,无论 tokens 数量和模型大小如何,具有相同 pre-training loss 的模型在 12 个下游任务上表现出相同的性能。为了更深刻地理解这个问题,我们训练了30多个不同模型参数和数据规模的语言模型,并评估了他们在 12 个英文和中文数据集上的表现。原创 2024-04-19 11:17:43 · 829 阅读 · 0 评论 -
大模型面试之:阿里的Qwen模型和Baichuan、LLaMA有什么区别
Qwen使用了SwiGLU激活函数RMSNorm对Transformer的输入进行归一化Qwen使用了AdamW优化器总的来说,Qwen、Baichuan和LLaMA在激活函数、位置编码、优化器、注意力机制等关键架构设计上都存在一定差异,这些差异可能会影响到模型的性能表现。原创 2024-04-18 15:57:50 · 929 阅读 · 0 评论 -
大模型国产化适配7-华为昇腾LLM落地可选解决方案(MindFormers、ModelLink、MindIE)
本文的所有信息都是截止2024年4月最新的一些信息,如有不准确的地方欢迎讨论。总的来说,昇腾最近一年多经过海量大模型需求的洗礼,正在快速变得成熟和完善。希望国产AI芯片、AI软硬件生态越来越好。原创 2024-04-18 15:23:10 · 756 阅读 · 0 评论 -
大模型底层transformers源码解析(二)之 TrainingAugumentes实例,/src/transformers/training_args.py
Poe是用于控制训练循环的参数类,它通常用于 Hugging Face Transformers 库中的示例脚本。原创 2024-04-18 11:12:33 · 665 阅读 · 0 评论 -
大模型底层 transformers源码解析之trainer.py
我会根据你提供的trainer.py源代码,用python的Graph包画出流程图,并着重介绍train()方法。- 将 inputs 通过 self._prepare_inputs 方法处理后传给 self.training_step。- 调用 optimizer.step() 和 lr_scheduler.step() 进行参数更新。计算总共需要训练的步数 max_steps 和 num_train_epochs。- 每 args.logging_steps 个步骤打印训练日志。原创 2024-04-17 17:32:46 · 972 阅读 · 0 评论 -
LlaMa-Factory源码解析之预训练workflow.py -> LLaMA-Factory/src/llmtuner/train/pt/workflow.py
python复制):run_pt此函数负责语言模型的预训练流程。它接受配置和参数,用于指定模型、数据、训练和微调的参数。callbacks可选的回调函数列表,可以用于训练过程中的自定义操作(例如,日志记录、保存检查点)。原创 2024-04-17 16:49:13 · 252 阅读 · 0 评论 -
LlaMa-Factory源码解析之 setup.py
整体来看,这段代码是一个典型的Python安装脚本,用于设置和安装一个专注于LLM微调的Python库。它通过定义函数来动态获取版本号和依赖,通过。,该库专注于大型语言模型(LLM)的微调。这段代码是一个典型的Python项目的安装脚本,采用了。判断是否直接运行该脚本。如果是直接运行,那么将执行。自动发现项目中的所有Python包。和安装Python包。函数,配置了包的各种属性,如包名。函数来配置包的安装和元信息。原创 2024-04-17 15:40:33 · 157 阅读 · 0 评论 -
Llama-Factory 简介 二, 脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl
│ ├── single_node.sh: 使用 Accelerate 进行单节点 LoRA 训练。│ ├── pretrain.sh: 基于 LoRA 进行增量预训练。│ ├── reward.sh: 基于 LoRA 进行奖励模型训练。│ ├── orpo.sh: 基于 LoRA 进行 ORPO 训练。│ ├── ppo.sh: 基于 LoRA 进行 PPO 训练。│ ├── dpo.sh: 基于 LoRA 进行 DPO 训练。原创 2024-04-17 15:36:07 · 492 阅读 · 0 评论 -
Llama-Factory简介 github介绍页
可选的额外依赖项:deepspeed、metrics、unsloth、galore、vllm、bitsandbytes、gptq、awq、aqlm、qwen、modelscope、quality。[23/09/23] 我们在项目中集成了 MMLU、C-Eval 和 CMMLU 评估集。如果您在 Hugging Face 模型和数据集的下载中遇到了问题,可以通过下述方法使用魔搭社区。部分数据集的使用需要确认,我们推荐使用下述命令登录您的 Hugging Face 账户。如果您感兴趣请关注我们的。原创 2024-04-17 14:54:56 · 621 阅读 · 0 评论 -
Llama源码解析之tokenizer.py
类提供了使用SentencePiece模型对文本进行分词和编码/解码的功能。它的构造函数接受SentencePiece模型文件的路径,并在初始化时加载模型。在Python中,类是创建对象(特定数据结构)的蓝图,它封装了数据和操作这些数据的函数。方法将字符串编码为标记ID列表,可以选择在序列的开头和结尾添加特殊的BOS和EOS标记。的Python类,用于使用SentencePiece模型对文本进行分词和编码/解码。是一个字符串类型的参数,它指定了SentencePiece模型文件的路径。原创 2024-04-17 14:29:51 · 942 阅读 · 0 评论 -
对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品
闫俊杰:过程很痛苦,失败了两次。因为我们本来就有很多不确定性,做新东西又增加了不确定性,它就应该遇到挑战。比如模型训了半个月,发现一些指标离前期估测的越来越远。就像你发了一个火箭,本来以为它可以到三万米,但它偏航了。你就开始想哪个地方错了,把问题解完之后,发现还没有回到一个好的状态,又失败了。但你得到了很多经验,把经验汇聚起来,再来一次。每一次都是很多钱,更重要的是时间。我后来发现其实这也不是赌,因为很多挑战不是 MoE 本身带来的,而是更多底层的东西:比如对实验方法、网络和数据结构的探索等等。原创 2024-04-17 13:55:50 · 977 阅读 · 0 评论 -
Llama源码解析之example_chat_completion.py + Llama github界面
完成此操作后,您应该可以在 1 小时内访问某个版本的所有 Llama 模型(Code Llama、Llama 2 或 Llama Guard)。这个程序展示了如何使用预训练的语言模型(可能是类似GPT的模型)生成给定对话的完成。我们最新版本的 Llama 现在可供个人、创作者、研究人员和各种规模的企业使用,以便他们能够负责任地实验、创新和扩展他们的想法。我们的模型和权重已获得研究人员和商业实体的许可,坚持开放原则。一旦您的请求获得批准,您将通过电子邮件收到签名的 URL。模型并运行推理的最小示例。原创 2024-04-17 11:39:51 · 743 阅读 · 0 评论 -
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
LISA 算法的核心在于:- 始终更新底层 embedding 和顶层 linear head;- 随机更新少数中间的 self-attention 层,比如 2-4 层。出乎意料的是,实验发现该算法在指令微调任务上超过 LoRA 甚至全参数微调。更重要的是,其空间消耗和 LoRA 相当甚至更低。70B 的总空间消耗降低到了 80G*4,而 7B 则直接降到了单卡 24G 以下!原创 2024-04-17 10:57:08 · 759 阅读 · 0 评论 -
ICLR 2024 | 一种全新的大语言模型自我检查方法方法
为了解决这个问题,来自牛津大学的研究团队提出了一个通用、零样本验证方法SelfCheck,可用于验证各种推理中发现推理步骤的潜在错误。针对一个具有多步推理的问答过程,SelfCheck使用“目标提取”、“信息收集”、“推理重塑”和“结果对比”四阶段方法验证每个推理步骤的正确性,并提出集成方法综合每个推理步骤的验证成果,并最终用于同一问题下多个答案的加权表决选择。SelfCheck使用数学和逻辑推理领域的代表性数据集进行实验。原创 2024-04-17 10:52:31 · 694 阅读 · 0 评论 -
大语言模型研究热点
Lion: Adversarial Distillation of Proprietary Large Language Models》提出了一种新颖的对抗性蒸馏框架,以实现更有效的知识转移,论文使用 7 万个训练数据就成功地将知识从 ChatGPT 转移到了学生模型Lion,实现了与 ChatGPT 相当的开放式生成能力;论文通过量化和知识提炼压缩模型对大模型中社会偏见的影响进行了控制研究;原创 爱吃牛油果的璐璐。原创 2024-04-17 10:18:49 · 788 阅读 · 0 评论 -
多agent思想显著提升小模型工具调用能力
结论1: 多LLM代理框架(例如本文的Planner、Caller、Summarizer)能够克服传统单个LLM在工具学习方面的性能限制,通过模块化的方法分解任务,可以利用小型LLMs构建特定能力,并且更容易更新和维护。结论2: 多阶段微调比单阶段微调效果更好。与单阶段微调的多 LLM(Multi-LLM one-stage)和多任务微调的单一大型语言模型(Single-LLM multi-task)相比,α-UMi 展现了更好的性能,说明 GLPFT 策略在提升模型性能方面的有效性。原创 2024-04-17 10:00:31 · 900 阅读 · 0 评论 -
大模型部署综述
早期LLM的部署系统(如英伟达Triton上的FasterTransformer)只支持request- level scheduling,然后Orca考虑到可变的输出序列长度, 开始采用first-come-first-serve (FCFS)的顺序按迭代粒度计划engine的执行,同时配合批处理来提高硬件利用率,后来vLLM和RayLLM延续了这种做法使用continuous batching,以及TensorRT-LLM使用的Inflight batching。原创 2024-04-17 09:56:11 · 907 阅读 · 0 评论 -
大模型参数量都是7B,13B和65B等背后的原因是什么?
模型训练时间可以估算:6TP/(n*X*u),其中X是计算显卡的峰值FLOPS,n为卡的数量,u为利用率。以LLaMA-65B为例,在2048张80GB显存的A100上,在1.4TB tokens的数据上训练了65B参数量的模型。其参数量受到隐藏层维度,层数,注意力头数等影响,而这些参数取值既参考GPT-3,也是结合。就是这么干的,然后,Meta借鉴了OpenAI的做法,推出了llama的7B,13B,33B,65B四个尺寸。网络上有很多解释,笔者结合自己的理解,分享其中可能的原因。原创 2024-04-17 09:40:05 · 834 阅读 · 0 评论 -
大模型常见面试题 - 常用微调方法LORA和Ptuning的原理
Stable Diffusion 总共包含三个主要的组件,其中每个组件都拥有一个独立的神经网络1)Clip Text 用于文本编码。输入:文本 输出:77 个 token 嵌入向量,其中每个向量包含 768 个维度2)UNet +Scheduler 在信息(潜)空间中逐步处理 / 扩散信息。输入:文本嵌入和一个由噪声组成的初始多维数组(结构化的数字列表,也叫张量 tensor)。输出:一个经过处理的信息阵列3)自编码解码器(Autoencoder Decoder),使用处理过的。原创 2024-04-16 23:22:53 · 797 阅读 · 0 评论 -
复现论文《GPT-4 无法推理》
ChatGPT 更高水平的认知能力一直让我着迷。自 OpenAI 推出以来,这一话题引发了无数争论,但大多数评论都是片面的。最近,我看到 Konstantine Arkoudas 的预印论文arxiv,并对问题陈述的巧妙范围界定、仅关注演绎推理以及提出的平衡观点感到惊讶。然后我决定重现论文中的所有实验,从头到尾。有两个动机:首先,通过所有实验可以帮助我直接观察 ChatGPT 在演绎推理中的表现;其次,我想看看 ChatGPT 是否有改进,如果有,改进的形式是什么。原创 2024-04-16 10:35:52 · 348 阅读 · 0 评论 -
基于LLM的AI Agent架构设计统一框架
它不仅能够模拟人类的交流方式,还能在复杂的环境中执行多样化的任务。AI Agent的作用日益凸显,从提供个性化推荐到辅助决策,再到自动化的流程管理,它们的应用范围正在不断扩大。然而,要充分发挥AI Agent的潜力,我们需要一个有效的架构设计,以确保它们能够更好地理解和适应所处的环境。Profile Module:此模块的目标是集中关于真实人类的信息,并将其组织成自然语言提示,以构建详尽的Profile。通过统一的记忆结构,AI Agent能够存储和回忆与用户相关的信息,从而提供更加个性化的服务。原创 2024-04-16 10:18:18 · 275 阅读 · 0 评论