大模型之模型训练篇（datawhale一起学）

拨开自己的理想三旬

已于 2024-01-24 00:44:01 修改

阅读量490

点赞数 7

文章标签：深度学习人工智能 chatgpt gpt-3 语言模型

于 2024-01-23 23:23:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62479378/article/details/135797247

版权

大模型之模型训练篇

注意：文章内容参考了斯坦福CS324 - Large Language Models课程，以及[Datawhale的一起学相关课程中的内容]
老规矩先讲总结哈~
总结：在这一篇中主要是讨论了如何训练大模型（哈哈，并没有具体的案例哈）。在如何训练中分为了目标函数和优化算法两个部分。在目标函数部分是围绕encoder和decoder讲解了几个模型。优化算法这里则是讨论了大模型训练的时候如何进行优化。在优化算法这里收益匪浅，谢谢佬们！！！

1. 目标函数

顾名思义~，目标函数就是要找到我们的目标，TransFormer结构的语言模型通常由三类，每一类对应的典型模型都是不一样的，目标函数也是不一样的，接下来将分开讲解。
三类语言模型的目标函数：

只包含解码器（Decoder-only）的模型（例如，GPT-3）：计算单向上下文嵌入（contextual embeddings），一次生成一个token
只包含编码器（Encoder-only）的模型（例如，BERT）：计算双向上下文嵌入
编码器解码器（Encoder-decoder）模型（例如，T5）：编码输入，解码输出

任何模型将token序列映射到上下文嵌入中（例如，LSTM、Transformers）：

$\phi : V^L \to \mathbb{R}^{d \times L}.$

$\left[\text{the}, \text{mouse}, \text{ate}, \text{the}, \text{cheese}\right] \stackrel{\phi}{\Rightarrow} \left[\binom{1}{0.1}, \binom{0}{1}, \binom{1}{1}, \binom{1}{-0.1}, \binom{0}{-1} \right].$

1.1 Decoder-only模型

首先定义一个条件分布
$p(x_i \mid x_{1:i-1} )$
定义如下：

将 $x_{1:i-1}$ 映射到上下文的embedding(嵌入)中
应用嵌入矩阵 $\in \R^{V \times d}$ 来获得每个token的得分 $\phi(x_{1:i-1})_{i-1}$ 。
对其进行指数化和归一化，得到预测 $x_i$ 的分布。

简单讲：
$p(x_{i+1} \mid x_{1:i}) = softmax(E \phi(x_{1:i})_i).$

1.1.1 最大似然

设 $\theta$ 是大语言模型的所有参数。设 $D$ 是由一组序列组成的训练数据。
然后，我们可以遵循最大似然原理，定义以下负对数似然目标函数：

$O(\theta) = \sum_{x \in D} - \log p_\theta(x) = \sum_{x \in D} \sum_{i=1}^L -\log p_\theta(x_i \mid x_{1:i-1}).$

并且，有很多的方法可以有效地优化这一目标函数。

1.2 Encoder-only 模型

1.2.1 单向到双向

使用上述最大似然可以训练得到Decoder-only模型，它会产生（单向）上下文嵌入。但如果我们不需要生成，我们需要更强的双向上下文嵌入。

1.2.2 BERT

我们首先介绍BERT的目标函数，它包含以下两个部分：

掩码语言模型（Masked language modeling）
下一句预测（Next sentence prediction）

以自然语言推理（预测隐含、矛盾或中性）任务中的序列为例：

拨开自己的理想三旬

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

拨开自己的理想三旬 CSDN认证博客专家 CSDN认证企业博客

码龄3年

20: 原创

117万+: 周排名

9万+: 总排名

5万+: 访问

: 等级

364: 积分

76: 粉丝

108: 获赞

40: 评论

477: 收藏

私信

关注

热门文章

分类专栏

树 1篇
pta 1篇

最新评论

数据结构树相关，知识点汇总一定要上岸啊（持续更新中）
CSDN-Ada助手: 恭喜您撰写了第20篇博客！看到您对数据结构树的知识点进行汇总，真是让人佩服。希望您能继续保持更新，让更多人受益。或许在下一篇博客中，可以深入探讨一些实际应用场景，让读者更好地理解和运用这些知识。期待您的精彩继续！
就简单记录一下如何hf镜像国内加速下载。等研究生上岸，来还愿
CSDN-Ada助手: 恭喜您撰写了第19篇博客，对于如何hf镜像国内加速下载进行了记录。希望您的研究生学业能够顺利上岸，如愿以偿。继续保持创作的热情和努力，不断分享有价值的内容给读者们。或许在下一篇博客中，可以分享一些关于网络安全或者技术前沿的内容，让大家更加受益。期待您的精彩续篇！祝您一切顺利！
Yolov8教程，安装，训练，推理速度太强悍了，详细教学
weixin_43756818: 请问博主，model = YOLO('yolov8n.yaml') model = YOLO('yolov8n.pt') results = model.train(data='coco128.yaml', epochs=3) 这里的前两行代码是同时存在的还是只选择一个注释另一个，yolov8n.yaml和yolov8n.pt是不是要和train.py放在同一级目录下
Yolov8教程，安装，训练，推理速度太强悍了，详细教学
yssqtao: 我从github上下载下来的源码，用vscode打开后，ultralytics文件夹下根本就没有yolo文件夹！！！
大模型之模型训练篇（datawhale一起学）
CSDN-Ada助手: 恭喜您写下了第18篇博客！看来您对大模型的训练有着深入的理解和经验，真是令人钦佩。接下来，我建议您可以尝试分享一些关于模型训练中遇到的挑战和解决方案，或者是一些实用的技巧和经验分享，这样可以让读者更加深入地了解模型训练的过程，期待您的下一篇作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

拨开自己的理想三旬 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。