大模型知识点
文章平均质量分 68
从现在开始,每日学习一个大模型知识点
保持成长
先努力优秀 再大方拥有
展开
-
昇腾大模型性能分析思路
我们根据性能问题的场景,按照单机和集群场景进行分类,再明确性能问题属于哪一类,明确好性能问题背景之后,才方便进行下一步问题的定位;在明确问题背景后,参考,选择对应的性能工具,采集性能数据并拆解性能,找到需要提升性能的模块;在明确性能瓶颈模块后,将问题细化定位到下发、计算和通信等模块,并通过本文目录搜索到对应章节找到对应优化算法。原创 2024-09-04 19:17:33 · 910 阅读 · 0 评论 -
LLaMA-Factory仓基础功能架构及NPU/GPU环境实战演练
LLaMA-Factory是一个开源的大规模语言模型微调框架,设计用于简化大模型的训练过程。它提供了一个统一的平台,支持多种大模型的微调,包括LLaMA、BLOOM、Mistral等,旨在帮助用户快速适应和调整这些模型以适应特定的应用场景。LLaMA-Factory通过提供一套完整的工具和接口,使用户能够轻松地对预训练的模型进行定制化的训练和调整,包括(增量)预训练、指令监督微调、奖励模型训练、PPO训练、DPO训练和ORPO训练等多种训练方法。原创 2024-09-04 15:31:25 · 701 阅读 · 0 评论 -
浅谈FlashAttention优化原理
背景:在Transformer 结构中,自注意力机制的时间和存储复杂度与序列的长度呈平方的关系,因此占用了大量的计算设备内存和并消耗大量计算资源。如何优化自注意力机制的是大语言模型需要面临的重要问题。原创 2024-08-28 17:06:56 · 937 阅读 · 0 评论 -
ubuntu系统GPU从0开始构建大模型训练环境
liunx系统基于CUDA生态从0开始构建大模型训练环境;ubuntu+CUDA+pytorch+ChatGLM原创 2024-08-28 14:28:44 · 704 阅读 · 0 评论 -
DeepSpeed基础及内存优化特性
DeepSpeed是一个由Microsoft 公司开发的开源深度学习优化库,旨在提高大规模模型训练的效率和可扩展性,使研究人员和工程师能够更快地迭代和探索新的深度学习模型和算法。它采用了多种技术手段来加速训练,包括等。此外,DeepSpeed 还提供了一些辅助工具,例如,以帮助开发者更好地管理和优化大规模深度学习训练任务。原创 2024-08-04 23:39:30 · 944 阅读 · 0 评论 -
什么是人工智能领域的“下游任务”
这些大型预训练模型通常是在大量无标注或弱标注的数据上通过自监督学习(self-supervised learning)的方式预先训练得到的,目的是捕获语言或数据中的通用表示(representations)。此外,预训练模型还允许研究人员和开发者利用有限的标注数据来训练模型,降低了对大规模标注数据的依赖。这些任务通常需要利用预训练模型学到的通用表示,通过微调(fine-tuning)或特征提取(feature extraction)的方式,来适应特定的应用场景。原创 2024-08-04 23:31:57 · 223 阅读 · 0 评论 -
强化学习和有监督学习的区别
随着ChatGPT、Claude 等通用对话模型的成功,强化学习在自然语言处理领域获得了越来越多的注意力。在深度学习中,有监督学习和强化学习不同,可以用旅行方式进行更直观的对比,和可以看做,每种旅行都具备着自己独特的风景、规则和探索方式。原创 2024-07-23 17:11:09 · 390 阅读 · 0 评论 -
分布式训练并行策略
大模型分布式训练并行策略介绍原创 2024-07-23 10:00:56 · 1125 阅读 · 0 评论 -
浅谈全量微调和PEFT高效微调(LoRA)
是指在预训练的大型模型基础上调整所有层和参数,使其适应特定任务的过程。这一过程使用较小的学习率和特定任务的数据进行,可以充分利用预训练模型的通用特征。原创 2024-07-15 21:27:47 · 356 阅读 · 0 评论 -
什么是Base模型?什么是chat模型?什么是instruct?什么是4Bit?
常常在开源模型仓看到大模型库中有`base`、`chat`、`instruct`和`4bit`等模型,作为小白来说经常搞不明白需要下载哪一个,今天就带大家简单了解一下原创 2024-07-15 20:12:59 · 2722 阅读 · 0 评论 -
浅谈RLHF---人类反馈强化学习
通俗理解什么是RLHF原创 2024-07-14 22:46:18 · 276 阅读 · 0 评论 -
07浅谈大语言模型可调节参数tempreture
浅谈大语言模型输出随机性参数temperature原创 2024-07-07 15:42:12 · 827 阅读 · 0 评论 -
06浅谈大语言模型可调节参数TopP和TopK
浅谈大预言模型本文生成随机性控制超参之top_K和top_P原创 2024-07-07 02:17:00 · 531 阅读 · 0 评论 -
02浅谈大模型文本生成的背后逻辑
浅谈大预言模型文本生成逻辑原创 2024-07-06 14:56:57 · 211 阅读 · 0 评论 -
AI算法/模型/框架/模型库...都是什含义区别和联系?
算法(Algorithm):算法是解决某一特定问题的步骤或规则集合。在AI/ML领域中,算法是用于训练模型、优化参数和执行推理的数学规则和计算方法。算法是模型训练的核心,通过不断优化模型参数以最小化误差或最大化性能。原创 2024-07-06 01:47:46 · 1374 阅读 · 0 评论 -
03浅谈提示工程、RAG和微调
通俗理解提示工程/RAG及微调原创 2024-07-05 00:59:17 · 508 阅读 · 0 评论 -
04通俗理解自注意力机制(self-attention)
通俗易懂理解自注意力机制原创 2024-07-04 00:30:38 · 323 阅读 · 0 评论 -
01通俗理解大模型预训练和微调
但是通用大模型在某些方面的垂直能力可能还不具备,因此需要用到一些领域的数据或私有化数据对大模型进行改良,这个过程叫做微调。通过海量数据数据,训练一个通用大模型,此时大模型具备很多能力。简单理解大模型预训练和微调的过程。原创 2024-07-03 00:59:35 · 162 阅读 · 0 评论 -
大模型基础
AI大模型基础名词概念总结原创 2024-07-03 00:55:34 · 1093 阅读 · 0 评论