大模型微调-CSDN博客

原创一文带你理解什么是大模型微调？

常见的 PEFT 方法包括 Prefix-tuning（在模型的输入或隐层添加额外可训练的前缀）、Adapter-tuning（在预训练模型的每一层插入较小的神经网络层或模块）、LoRA（通过学习小参数的低秩矩阵来近似模型权重矩阵的参数更新）等。：用特定的数据对大模型进行训练，调整模型的全部参数，使模型在特定任务上的性能达到最优。从字面意思理解，是在通用大模型的基础上，针对超出其范围或不擅长的特定领域或任务，使用专门的数据集或方法对模型进行相应的调整和优化，以提升其在该特定领域或任务中的适用性和性能表现。

2024-11-07 19:54:40 451

原创大模型入门到精通！大模型应用开发极简入门（含PDF）

大模型的出现正悄然改变人们的生活与工作方式，比如ChatGPT-4、文心一言、通义千问等语言大模型。它们已帮助很多办公室“白领”们在解决日常工作问题，如制定计划、撰写实施方案，甚至制作美化PPT等（笔者及身边的同事在工作中还经常组合应用）。适合人群：非常适合从其他行业想入门大模型领域的从业者作为入门书籍，这本书对于很多概念做了很通俗易懂的说明和讲解！免费领取。

2024-10-16 19:21:29 761

原创大模型学习路线（非常详细）从零基础入门到精通！

随着人工智能技术的飞速发展，大模型以其强大的功能和广泛的应用场景，成为了技术领域的热门话题。对于有志于投身人工智能领域的学者和从业者来说，掌握大模型技术至关重要。以下是一份从入门到精通的大模型学习路线指南，帮助您系统性地学习和掌握这一技术。

2024-10-16 10:45:57 358

原创大模型、大语言模型、大型语言模型的区别和关系

大模型”、“大语言模型”和“大型语言模型”这些术语在很多情况下可以互换使用，但它们在具体语境中可能会有细微的差别。

2024-07-25 20:47:40 3489

原创大模型入门：RLHF中的PPO算法理解

2）在准备好SFT模型和Reward模型后，一般来说是以SFT模型初始话Actor（策略模型），Ref（用于约束策略模型的参数变化量），Critic（价值模型），Reward（对策略的执行反馈即时的奖励）4个模型，Ref和Reward代表着环境对Actor的奖励或约束，参数是不会更新的，而Actor和Critic是会迭代优化的。如上面的例子中，在状态。蒙特卡洛因为采样了完整的序列，能更精准的估计奖励值，可以认为是无偏的估计，但因为序列越长，序列之间的差异越大，会产生较大的方差，导致收敛很慢；

2024-07-24 19:21:28 1356

原创大模型 | 你知道的 PyTorch常见函数和类有哪些？

PyTorch 是一个流行的开源机器学习库，特别在深度学习领域中得到了广泛的应用。大模型通常指的是参数量很大的神经网络模型，而 PyTorch 提供了丰富的函数和类来构建和训练这些模型。

2024-07-24 19:17:33 993

原创 AI大模型基础：Agent、RAG、LangChain的关系

Agent、Retrieval-Augmented Generation (RAG) 和 LangChain 是自然语言处理（NLP）和人工智能领域中的几个概念和技术，它们在处理和理解语言数据方面各有作用。

2024-07-24 19:13:50 929

原创大模型入门：RLHF微调大模型

3.3）计算actor的loss，其实在这里有一个目标actor和当前actor的概念，下面函数中old_logprobs是由目标actor输出的，logprobs是由当前actor输出的，ppo算法中actor的loss是使用当前actor输出的概率和目标actor输出的概率的比值来约束的，转换成log后就是logprobs - old_logprobs。文件夹下，在第三步我们需要两个模型，一个是第一步训练好的SFT模型，另一个是第二步训练好的reward模型。

2024-07-23 09:42:09 1285

原创大模型入门：基于peft微调ChatGLM模型

经过中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术，ChatGLM因为是中文大模型，在中文任务的表现要优于LLaMa，我在一些实体抽取的任务中微调ChatGLM-6B，都取得了很不错的效果。值得注意的是，在使用deepspeed训练时，在加载chatglm模型时需要注意，chatglm模型加载默认是使用pytorch中的skip_init初始化，会将参数先加载到meta device上，这种情况就无法使用deepspeed。，可以通过transformers中的Autoxxx类加载。

2024-07-23 09:37:40 630

原创大模型入门: 基于peft 微调 LLaMa模型

在这里使用的是hugging face的accelerate库中的deepspeed方法，zero-3会将模型、梯度、优化器参数都分割到不同的GPU，并且使用cpu offload将一些中间变量放到cpu上，经实测使用两张GPU时，每张GPU的使用大概5个G多一点，单张卡的batch size可以设置到8，但是在实际训练过程中速度比DDP还要慢一点，这里的原因还是因为模型并行、CPU offload等带来了大量的通信工作，所以单张gpu能存放一整个模型时还是首推DDP。同时混合精度训练也会有所加速。

2024-07-23 09:30:18 823

2401_86154451的博客

原创一文带你理解什么是大模型微调？

原创大模型入门到精通！大模型应用开发极简入门（含PDF）

原创大模型学习路线（非常详细）从零基础入门到精通！

原创大模型、大语言模型、大型语言模型的区别和关系

原创大模型入门：RLHF中的PPO算法理解

原创大模型 | 你知道的 PyTorch常见函数和类有哪些？

原创 AI大模型基础：Agent、RAG、LangChain的关系

原创大模型入门：RLHF微调大模型

原创大模型入门：基于peft微调ChatGLM模型

原创大模型入门: 基于peft 微调 LLaMa模型

原创大模型入门：大模型的训练方法

原创大模型入门：PEFT

原创【AI绘画】什么是Stable Diffusion？保姆级 Stable Diffusion 入门教程

原创【AIGC】AI绘画的发展历程和前景，如何学习AI绘画？

原创 AI绘画工具有哪些你知道吗？推荐14款AI绘画软件

空空如也

空空如也