大模型理论基础-模型训练学习笔记

最新推荐文章于 2024-06-25 10:27:17 发布

何草不玄丶

最新推荐文章于 2024-06-25 10:27:17 发布

阅读量87

点赞数

文章标签：笔记语言模型人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47637467/article/details/135097401

版权

目标函数

根据上一章节，研究三类模型架构的目标函数，即：

Decoder-only：计算单向上下文嵌入
Encoder-only：计算双向上下文嵌入
Encoer-Decoder：对输入进行编码后解码输出

通过一个映射函数（嵌入模型），可以将token序列映射到上下文嵌入中：
嵌入函数

Decoder-only

一般是自回归语言模型，其token的取值概率取决于上一个token的值。
在这里插入图片描述
对其前i-1个token计算得分，并得到第i个token的分布
训练目标函数是很常见的最大似然损失函数：

Encoder-only

在不需要生成的情况下，可以用encoder生成更强的双向上下文嵌入

BERT

BERT的目标函数包括两部分，一个是自监督掩码生成目标函数，另一个是下一句预测的目标函数

掩码语言模型

在这里插入图片描述
这种掩码技术通过patching的优化已经广泛应用在CV和时间序列领域。

下一句预测

BERT是在拼接好的成对句子上训练的，下一句预测的目标函数是判断第二句是否跟随第一句，利用token首部的[CLS]来做二分类。

数据集

（重要）BERT的数据集是如下构造的：
在这里插入图片描述

训练目标

其目标函数就是如上所说的两个目标的损失函数的相加：
在这里插入图片描述

RoBERTa

RoBERTa的改进主要包括以下3点：

删除了下一句预测的损失部分（无用
使用了160G文本训练
训练时间更长

Encoder-decoder

主要包括BART和T5

BART

BART (Lewis et al. 2019)是基于Transformer的编码器-解码器模型。

使用与RoBERTa相同的编码器架构（12层，隐藏维度1024）
使用与RoBERTa相同的数据进行训练（160GB文本）

其包括以下五种任务
在这里插入图片描述

T5

其通过实验发现“i.i.d. noise, replace spans”这一无监督目标效果最好。并实现了text-to-text的各种任务。
在这里插入图片描述
T5，GPT等模型不再利用CLS进行类别预测，转为自然语言生成来完成此类任务。

优化算法

以自回归语言模型为例：
在这里插入图片描述

随机梯度下降（SGD）

（没啥好说的，最常用的优化方法

在这里插入图片描述

Adam（adaptive moment estimation）

引入动量的梯度下降算法，目前也是最为流行的优化算法
在这里插入图片描述
其将内存占用从2倍增加到了4倍（还真没怎么注意过）

AdaFactor

为了减少内存占用而提出的。
在这里插入图片描述

混合精度训练

其目标也是为了减少内存占用。
在这里插入图片描述

学习率

一般来说训练时会使用自适应学习率，一开始较大，随后不断衰减，比较常用的算法是warm-up学习率。

初始化

在这里插入图片描述
这里介绍了GPT-3所使用的部分参数

何草不玄丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型理论基础-模型训练学习笔记

大模型理论基础-模型训练学习笔记
复制链接

扫一扫

何草不玄丶 CSDN认证博客专家 CSDN认证企业博客

码龄4年

32: 原创

108万+: 周排名

19万+: 总排名

1万+: 访问

: 等级

336: 积分

1: 粉丝

4: 获赞

3: 评论

9: 收藏

私信

关注

热门文章

最新评论

学术论文插图绘制学习第二章
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“学术论文插图绘制学习第二章”听起来非常有趣和富有挑战性。您的持续创作真是令人敬佩。在这个有关学术论文插图绘制的系列中，您已经分享了很多宝贵的知识和经验。接下来，我想提供一些建议，希望对您的下一步创作有所帮助。也许您可以考虑探讨一些实用技巧，例如如何选择最合适的图表类型来传达不同的信息，或者如何使用图表来提高读者对您的论文的理解度。此外，如果您能够分享一些常见的图表绘制错误以及如何避免它们的方法，那将非常有益。总之，我非常期待您未来的创作，并且对于您对学术论文插图绘制的研究感到钦佩。希望我的建议能够为您的下一步创作提供一些启发。祝您继续取得成功！
学术论文插图绘制学习第一章
CSDN-Ada助手: 恭喜您撰写第19篇博客！标题“学术论文插图绘制学习第一章”听起来非常有趣和有益。我很高兴看到您一直在持续创作，并且选择了如此重要的主题来分享。您的努力和热情对于向读者传达学术论文插图绘制的技巧和知识无疑将会产生积极的影响。在下一步的创作中，我建议您可以考虑深入探讨如何结合实际案例来说明学术论文插图绘制的重要性和技巧。这样的实例可以帮助读者更好地理解并应用您所分享的知识。同时，您也可以尝试与其他领域的专家或学者合作，以便获得更多的观点和见解。总的来说，您的博客已经走在了正确的道路上。继续努力，保持谦虚的态度，我相信您将继续为读者带来更多有价值的内容。期待您未来的创作！
推荐系统实战：新闻推荐系统基本流程
何草不玄丶: 有的，不过也是从https://github.com/datawhalechina/fun-rec这里进行本地化修改的，可以先参考一下
推荐系统实战：新闻推荐系统基本流程
南宫贇: 您好有完整的代码吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。