昇思MindSpore技术公开课——第四课:GPT2

1、学习总结

1.1Language Model

预测下一个单词的模型。

1.2GPT-2

在输入与输出之间加一个任务指令。

1.3GPT2 全链接层模块的实现

生成下三角矩阵,灰色部分待预测。

做完softmax之后,上三角的位置会全部变成 0。

self-attention之后还要加一层project层全连接层( mindnlp.models.utils.utils.Conv1D ),就是对得到的矩阵再进行一次变换。

2、学习心得

GPT2的论文介绍了模型的基本结构和训练方法。GPT2是一个基于Transformer的编码器-解码器模型,采用了大量的并行计算和GPU加速技术进行训练。在训练过程中,模型通过自回归的方式生成目标序列,并使用监督学习和无监督学习相结合的方法进行优化。这种训练方式使得GPT2能够更好地理解和生成自然语言文本。

3、经验分享

  1. 在学习GPT-2之前,我建议深入了解Transformer模型和编码器-解码器结构的原理。这有助于更好地理解GPT-2的工作方式和优化方法。
  2. 在数据预处理阶段,最核心的挑战是如何对数据进行填充。在确保最大序列长度一致的情况下,我们不仅要对过长的训练样本进行裁剪,还要对不足长度的样本进行填充,以确保所有数据样本的长度一致。关于裁剪的方法多种多样,不同的裁剪策略可能会对模型的训练效果产生影响。为了更好地平衡信息保留,例如在课程中的摘要任务中,我们选择保留所有的摘要数据,而对原文数据进行裁剪。因此,选择合适的数据裁剪方案对于数据预处理至关重要。

4、课程反馈

课程不仅关注理论,还高度重视实际操作和动手能力。这种教学方法鼓励学员亲自动手,通过实践来巩固和加深对课程内容的理解;从课程大纲到具体内容,都显示出精心设计和组织。这种结构使得课程内容易于理解,有助于学员更好地吸收和记忆。

5、未来展望

独立完成文本生成任务。

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值