Ragnor.Li-CSDN博客

原创 Step-06 Instrument微调一个Chat模型

Instruction finetune（指令微调）跟 Prompt Engineering（提示词工程）其本质有何不同？

2024-11-29 17:53:04 474

原创 Step-05 SFT微调一个2-Classification模型

整个代码的核心是微调GPT模型以实现二分类的过程。通过冻结主体参数，仅更新最后一层和输出头，代码实现了在不改变GPT语言生成能力的前提下，将模型改造为分类器，并且由于仅微调少量参数，大大降低了训练成本。微调（finetuning）过程中主要调整输出层（例如替换为二分类头）以适应具体任务。微调方法: 这里我贴图保格式了，想复制可以访问公众号 Ragnor.Li。冻结层通常指不进行正向、反向传播的梯度更新，从而固定原有参数。

2024-11-29 17:38:28 662

原创 Step-04 预训练基础模型

Pre-Traine Model的本质就是：通过大规模无标注数据进行初步训练，以学习到通用的特征表示，然后再通过少量标注数据进行微调，以适应特定任务，从而实现迁移学习、减少标注数据需求、提高模型性能、增强泛化能力和提升资源效率。所谓预训练就是“模型上9年义务教育”即学习基本的语言范式！使用未标记数据是因为数据丰富，全国哪那么多专家？

2024-11-29 17:23:31 883

原创 Step-03 实现一个GPT模型

GPT模型的本质是一个基于Transformer的Decode-only预训练模型！OpenAI的ChatGPT说第二没人敢说第一吧！

2024-11-29 16:58:07 248

原创 Step-02 实现注意力机制

何谓注意力机制？注意力在机器学习中本质上是一个加权平均机制，让模型可以更“聚焦”于输入中的重要部分，忽略无关部分。

2024-11-16 15:34:14 677

原创 Step-01 准备数据

LLM: 本质就是一个NN，而NN的本质就是一个非线性的数学函数（计算图）！没有足够、优质的Batch Data喂给这个函数做GD，是无法Optimize到一个最优的参数的！Data是foundation!图灵测试：图灵测试的本质是通过让机器与人类进行自然语言对话，判断机器是否能够表现出与人类无法区分的智能行为。深度学习：自动特征学习，模型复杂，计算资源需求高，解释性差，适用于数据量大且特征不明确的任务。传统机器学习：依赖手动特征工程，模型简单，计算资源需求低，解释性强，适用于数据量较小的任务。

2024-11-16 12:18:56 889

原创 LLM From Scratch

极简的方式来动手实现一个类GPT的基础大模型，Fine-Tune为两类应用。

2024-11-15 21:40:15 282

weixin_42398440的博客