自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Step-06 Instrument微调一个Chat模型

Instruction finetune(指令微调) 跟 Prompt Engineering(提示词工程)其本质有何不同?

2024-11-29 17:53:04 474

原创 Step-05 SFT微调一个2-Classification模型

整个代码的核心是微调GPT模型以实现二分类的过程。通过冻结主体参数,仅更新最后一层和输出头,代码实现了在不改变GPT语言生成能力的前提下,将模型改造为分类器,并且由于仅微调少量参数,大大降低了训练成本。微调(finetuning)过程中主要调整输出层(例如替换为二分类头)以适应具体任务。微调方法: 这里我贴图保格式了,想复制可以访问公众号 Ragnor.Li。冻结层通常指不进行正向、反向传播的梯度更新,从而固定原有参数。

2024-11-29 17:38:28 662

原创 Step-04 预训练基础模型

Pre-Traine Model的本质就是:通过大规模无标注数据进行初步训练,以学习到通用的特征表示,然后再通过少量标注数据进行微调,以适应特定任务,从而实现迁移学习、减少标注数据需求、提高模型性能、增强泛化能力和提升资源效率。所谓预训练就是“模型上9年义务教育”即学习基本的语言范式!使用未标记数据是因为数据丰富,全国哪那么多专家?

2024-11-29 17:23:31 883

原创 Step-03 实现一个GPT模型

GPT模型的本质是一个基于Transformer的Decode-only预训练模型!OpenAI的ChatGPT说第二没人敢说第一吧!

2024-11-29 16:58:07 248

原创 Step-02 实现注意力机制

何谓注意力机制?注意力在机器学习中本质上是一个加权平均机制,让模型可以更“聚焦”于输入中的重要部分,忽略无关部分。

2024-11-16 15:34:14 677

原创 Step-01 准备数据

LLM: 本质就是一个NN,而NN的本质就是一个非线性的数学函数(计算图)!没有足够、优质的Batch Data喂给这个函数做GD,是无法Optimize到一个最优的参数的!Data是foundation!图灵测试:图灵测试的本质是通过让机器与人类进行自然语言对话,判断机器是否能够表现出与人类无法区分的智能行为。深度学习:自动特征学习,模型复杂,计算资源需求高,解释性差,适用于数据量大且特征不明确的任务。传统机器学习:依赖手动特征工程,模型简单,计算资源需求低,解释性强,适用于数据量较小的任务。

2024-11-16 12:18:56 889

原创 LLM From Scratch

极简的方式来动手实现一个类GPT的基础大模型,Fine-Tune为两类应用。

2024-11-15 21:40:15 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除