fairseq transformer训练中的一些问题

最新推荐文章于 2024-05-05 23:52:39 发布

Dracen_Wu

最新推荐文章于 2024-05-05 23:52:39 发布

阅读量4.7k

点赞数 6

分类专栏：自然语言处理文章标签： fairseq transformer nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dragonbark/article/details/101123541

版权

fairseq transformer训练中的一些问题

这两天看fairseq transformer的代码，并在服务器用transformer跑实验。今天遇到一些问题，和师兄进行了一些交流，记录下来。

另一篇梳理nlp中的一些英文名词的还在写，整理好再发布。

transformer中的数据的流向和形式的变化？

在训练前，数据基本都是以 $batch\_size*src\_len$ 的形式传入，即维度为（句子数，单词数）的一个矩阵。

假设现在有3个句子：

s1: I am a student.

s2: I like play basketball.

s3: I have a dog.

那么，在输入之前，src数据就是这样的形式：


I	am	a	student	.
I	like	play	basketball	.
I	have	a	dog	.

也就是按一句一行，每一行都有src_len个单词。不过真正传入的不是单词，而是单词的token，即在词典中的位置。

在传入模型之前，会对数据进行embedding操作。embedding简单来说就是对每个token进行以dim为维度的扩展。在《attention is all you need》中，dim即d_model = 512。如果把源数据视为一个长方形，那么经过embedding后，数据就变成了长方体，它的维度为 $batch\_size * src\_len * dim$

最低0.47元/天解锁文章

关注

6
点赞
踩
18

收藏

觉得还不错? 一键收藏
9
评论
fairseq transformer训练中的一些问题

fairseq transformer训练中的一些问题这两天看fairseq transformer的代码，并在服务器用transformer跑实验。今天遇到一些问题，和师兄进行了一些交流，记录下来。另一篇梳理nlp中的一些英文名词的还在写，整理好再发布。transformer中的数据的流向和形式的变化？在训练前，数据基本都是以的形式传入，即句子数*单词数的一个矩阵。假设现...
复制链接

扫一扫

专栏目录

Dracen_Wu CSDN认证博客专家 CSDN认证企业博客

码龄7年

28: 原创

14万+: 周排名

46万+: 总排名

3万+: 访问

: 等级

690: 积分

15: 粉丝

32: 获赞

14: 评论

79: 收藏

私信

关注

热门文章

分类专栏

自然语言处理 4篇
机器学习 1篇
C++ 17篇
cocos2d-x 4篇
Java 1篇
网络编程 1篇
Netty 1篇

最新评论

fairseq transformer训练中的一些问题
lmw0320: 请教下，你是否遇到过from fairseq import libnat报错的情况，提示无法导入libnat。。我的fairseq是10.2版本的。。而且如果我用pip install 指定安装9.0版本的fairseq，会报错，提示什么g++ error之类的错误。。
fairseq transformer训练中的一些问题
qq_28846835: Transformer的并行性指的应该不是针对一个batch，应该是指针对一个Batch中的单一序列的计算并行吧
fairseq transformer训练中的一些问题
He.ColdThinking: 博主，我是初学者，有没有学习fairseq好的方法途径，求指导
fairseq transformer训练中的一些问题
「已注销」: 你好，请问fairseq-hydra-train怎么传递配置文件，相对路径还是绝对路径？
fairseq transformer训练中的一些问题
qq_40730004: 想问一下在generate的时候，实际上decoder的输入是batch x token(i) i表示时间step的形式吗，就是输入上一次的previous，输出这次的token？我一直以为是B X Tokens的输入不过做了后面的mask这样...

大家在看

最新文章

目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。