Transformer学习最终章

最新推荐文章于 2024-08-07 21:26:38 发布

置顶小老弟来喽

最新推荐文章于 2024-08-07 21:26:38 发布

阅读量611

点赞数 9

分类专栏： LLM 文章标签： transformer 学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/T940842933/article/details/140835672

版权

LLM 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本篇博客是现阶段transformer框架学习的最后一篇，内容主要包括学习资源汇总和最新一次的训练结果，希望可以帮助到大家。不做商业用途，绝不允许任何侵权行为。

一、资源汇总

1. 学习工具

文献阅读：知云文献翻译V8.4、谷歌翻译

编程环境：anaconda、VS code、Python 3.10.14、Pytorch 2.4.0

GPU环境：NVIDIA GeForce RTX 3050 Laptop GPU、cuda 12.4、cuDNN 90100

AI工具：ChatGPT-4o-mini

2. 学习资料及产出

整个学习周期从7月15日持续到7月31日，分为三个阶段：

论文学习（7.15-7.20）

论文地址：Attention is all you need

学习资料：illustrated-transformer

博客记录：《Attention Is All You Need》论文学习-CSDN博客

源码学习（7.21-7.23）

项目地址：GitHub - tensorflow/tensor2tensor

博客记录：《tensor2tensor》源码解读-CSDN博客

上手实践（7.24-7.31）

项目地址：GitHub-Transformer

博客记录：Transformer应用——机器翻译（English & Chinese）-CSDN博客

二、最新结果

在上一篇博客中，我使用较小的数据集跑通了输入处理、模型训练、输出处理、模型评估整个过程，由于数据集过于小（训练集960，验证集320，测试集320），即使跑了10个epoch，结果也不是很理想。我也考虑了租赁服务器，但是还需要配一次环境，所以直接pass。于是乎我新建了一个middle数据集：

train.txt：原训练集前32万条数据
val.txt：原验证集前3200条数据
test.txt：原验证集剩余数据（36123条）

训练一个epoch，每个批次32条数据，1000个批次时进行一次验证，检查是否可以早停。

损失函数图像

图像纵坐标选择不当，一开始loss接近10，训练最后loss在0.002左右浮动，相差了5000倍，可惜没有将loss保存下来，不然还可以调整一下坐标轴，这属于是吸取教训了。

前50个批次的loss和训练时间花销

8950-9000批次的loss和训练时间花销

至于为什么不是9950-10000的，问就是忘记截图了......

训练花费时间43345.94s，整整12个小时，从中午十二点跑到晚上12点，GPU都快冒烟了！

接着看看评估，比起上次训练的小模型，这次结果就好太多了，几乎没有错别字了，分数嘎嘎高

这是测试集36123条数据的测试结果，因为原本的数据集是去重的，这次划分的训练集、验证集、测试集也没有重复的部分，我认为模型的拟合程度还是非常好的。

三、总结

半个月多一点的时间，有这么多收获我是非常开心以及满意的，不仅学到了知识，还收获了许多粉丝，以及大家的点赞，感谢支持。我本人马上就要大四了，不是很想考研，一直梦想保研上岸，暂且先短暂体验一下科研生活吧，也认清一下自己的层次。

本次实践还有非常多的地方可以改进：

之前提到的generate函数、src_mask、tgt_mask等等
对生成序列的处理其实可以优化一下，我验证时是将翻译句子与原句进行对其，保证长度一致，于是就省去了填充部分内容的处理（英翻中结果会出现很多“椹”字，可能这个字的编码很特殊，想起了之前的锟斤拷、烫烫烫、屯屯屯等C语言的梗）
训练样本数目可以进一步扩大，以及模型超参数可以进行调整

这些内容就交给感兴趣的大佬吧。虽然Transformer这个框架是2017年提出来的，已经过去7年了，AI领域的发展也是神速，但是这个框架似乎还有一段时间的热度，因此我认为这样一次学习是非常有意义的。再次感谢大家支持！

小老弟来喽

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Transformer学习最终章

Transformer框架的全部学习内容汇总，以及最新训练结果，感谢大家支持！
复制链接

扫一扫

专栏目录

小老弟来喽 CSDN认证博客专家 CSDN认证企业博客

码龄3年

15: 原创

12万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

274: 积分

91: 粉丝

114: 获赞

15: 评论

261: 收藏

私信

关注

热门文章

分类专栏

LLM 4篇
机器学习 10篇

最新评论

Transformer应用——机器翻译（English & Chinese）
小老弟来喽: 1. 输出出现前置字符是因为训练和预测时右移了，训练右移是为了保证预测t时刻的时候只参照t时刻之前的内容。预测时不右移就会正常输出。 2. 看起来训练效果蛮不错的，但是神将网络模型几乎接近于黑盒，就算知道了每部分的作用，它的可解释性也不会特别强，可以看看https://jalammar.github.io/illustrated-transformer/ 3. 如果要手搓模型，不考虑特殊情况，只保证模型可以跑通的话，应该也不是很难，给你一个参考https://nlp.seas.harvard.edu/2018/04/03/attention.html 祝你好运！
Transformer应用——机器翻译（English & Chinese）
小小七qi: 我只训练了1W 5W 10W条数据的模型，其中每个模型在预测的过程输出的结果每句话前面都会有一些奇怪的字符（每个模型的前置字符还不一样），然后句子的后面也会有和你文章一样的那些种乱码（看你的最新文章没有了），假设我正则化手动去除（不完全）其它的字符之后再进行计算，在训练集和测试集上面都是0.87左右，我不信，然后又找了口语翻译数据验证，居然也有0.85 >_< （5W数据的模型）。我现在要做的就是通过你的部分代码理解Transformer推理原理，并应用于我手搓的模型。看看我能不能接着完善你的generate方法吧>_< 如下，只有括号里面是真正的 [code=plain] ##out (heavy traffic delayed us.) Outoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutoutout su su su su su su su su su su suoutout su su su su su su su su su su su su su su su suoutoutoutoutoutoutout su suout [/code]
Transformer应用——机器翻译（English & Chinese）
小老弟来喽: 模型类里面的generate方法是有bug的，没跑通，predict(src)中调用了generate，希望根据src预测出tgt。因为我没有部署的想法，这一块就没做太完善，不好意思哈
Transformer应用——机器翻译（English & Chinese）
小小七qi: 但是我在评估函数那里可以成功的运行，预测出来，肯定是我哪里错了，博主的代码非常完善的！
Transformer应用——机器翻译（English & Chinese）
小小七qi: [code=python] if __name__=="__main__": # # train_data_path = "/data/machine_translation/data/big/translation2019zh_train.json" # val_data_path = "/data/machine_translation/data/big/translation2019zh_train.json" # train(train_data_path,val_data_path,test=True) text="我是个人练习生。" outcome=predict(src_text=text) print(outcome) [/code] 我将训练好的中译英模型换好路径之后，运行上面的代码，得到了下面的一堆报错（原因不明>_<，百度GPT不到）， [code=plain] /opt/conda/conda-bld/pytorch_1720165264854/work/aten/src/ATen/native/cuda/Indexing.cu:1308: indexSelectLargeIndex: block: [84,0,0], thread: [127,0,0] Assertion `srcIndex < srcSelectDimSize` failed. For debugging consider passing CUDA_LAUNCH_BLOCKING=1 Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions. [/code] 请问博主，是我的预测方法错了嘛，因为我主要是像找个项目学习Transformer的预测方法>_<

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。