- 博客(7)
- 收藏
- 关注
原创 Step-06 Instrument微调一个Chat模型
Instruction finetune(指令微调) 跟 Prompt Engineering(提示词工程)其本质有何不同?
2024-11-29 17:53:04
474
原创 Step-05 SFT微调一个2-Classification模型
整个代码的核心是微调GPT模型以实现二分类的过程。通过冻结主体参数,仅更新最后一层和输出头,代码实现了在不改变GPT语言生成能力的前提下,将模型改造为分类器,并且由于仅微调少量参数,大大降低了训练成本。微调(finetuning)过程中主要调整输出层(例如替换为二分类头)以适应具体任务。微调方法: 这里我贴图保格式了,想复制可以访问公众号 Ragnor.Li。冻结层通常指不进行正向、反向传播的梯度更新,从而固定原有参数。
2024-11-29 17:38:28
662
原创 Step-04 预训练基础模型
Pre-Traine Model的本质就是:通过大规模无标注数据进行初步训练,以学习到通用的特征表示,然后再通过少量标注数据进行微调,以适应特定任务,从而实现迁移学习、减少标注数据需求、提高模型性能、增强泛化能力和提升资源效率。所谓预训练就是“模型上9年义务教育”即学习基本的语言范式!使用未标记数据是因为数据丰富,全国哪那么多专家?
2024-11-29 17:23:31
883
原创 Step-03 实现一个GPT模型
GPT模型的本质是一个基于Transformer的Decode-only预训练模型!OpenAI的ChatGPT说第二没人敢说第一吧!
2024-11-29 16:58:07
248
原创 Step-02 实现注意力机制
何谓注意力机制?注意力在机器学习中本质上是一个加权平均机制,让模型可以更“聚焦”于输入中的重要部分,忽略无关部分。
2024-11-16 15:34:14
677
原创 Step-01 准备数据
LLM: 本质就是一个NN,而NN的本质就是一个非线性的数学函数(计算图)!没有足够、优质的Batch Data喂给这个函数做GD,是无法Optimize到一个最优的参数的!Data是foundation!图灵测试:图灵测试的本质是通过让机器与人类进行自然语言对话,判断机器是否能够表现出与人类无法区分的智能行为。深度学习:自动特征学习,模型复杂,计算资源需求高,解释性差,适用于数据量大且特征不明确的任务。传统机器学习:依赖手动特征工程,模型简单,计算资源需求低,解释性强,适用于数据量较小的任务。
2024-11-16 12:18:56
889
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅