自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_42750193的博客

小郭小郭学富五车 CSDN认证博客专家 CSDN认证企业博客

码龄6年

17: 原创

20万+: 周排名

106万+: 总排名

3万+: 访问

: 等级

218: 积分

7: 粉丝

34: 获赞

9: 评论

172: 收藏

私信

关注

热门文章

分类专栏

Paper 2篇
NLP 4篇
pytorch 3篇
python 1篇
linux 1篇
调试和环境配置 2篇
pandas 3篇
TensorFlow与深度学习 1篇

最新评论

多头注意力机制 +代码解读
我是心: 这套实现是错误的，应该是在Linear层实现的将输入的x转化成query等（升维度），比如7个特征映射到7*8（即8头注意力），（4，20，7）线性变换到（4，20，7*8）的结果，最后再拆分（4，20，7，8）
apex安装、解决ModuleNotFoundError: No module named ‘amp_C‘报错
太气了准备莱万汀: 我这么搞了以后还是会有No module named 'torch._six'的报错
多头注意力机制 +代码解读
YYP129550: 我明白多组QKV可以一起计算，作者的意思是query等在传入的时候就已经是多组的了吗
多头注意力机制 +代码解读
YYP129550: 多头注意力机制不是用多组W计算多组QKV吗，这里是把单头的分成多头的？
多头注意力机制 +代码解读
weixin_45761970: 这里是应该是batch吧，整个数据集分为几个batch这样

最新文章

NLP

关注

文章平均质量分 77

关注数：文章数：4 文章阅读量：19365 文章收藏量：154

作者: 小郭小郭学富五车

这个作者很懒，什么都没留下…

展开