RuntimeError: einsum(): operands do not broadcast with remapped shapes [original-＞remapped]

最新推荐文章于 2024-08-25 07:50:29 发布

沉迷单车的追风少年

最新推荐文章于 2024-08-25 07:50:29 发布

阅读量4k

点赞数 4

分类专栏：经验问题汇总文章标签： einsum pytorch

本文链接：https://blog.csdn.net/qq_41895747/article/details/124101104

版权

经验问题汇总专栏收录该内容

155 篇文章 642 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在多头注意力训练中遇到`RuntimeError: einsum(): operands do not broadcast with remapped shapes`错误。问题源于计算q、k、v时它们的维度不一致。解决方案是确保在计算过程中q、k、v的维度相同，并添加异常处理来定位和修复维度不匹配问题。

摘要由CSDN通过智能技术生成

项目场景：

multihead-attention训练

out = torch.einsum('b h d e, b h d n -> b h e n', context, q)
  File "/root/anaconda3/lib/python3.7/site-packages/torch/functional.py", line 327, in einsum
    return _VF.einsum(equation, operands)  # type: ignore[attr-defined]
RuntimeError: einsum(): operands do not broadcast with remapped shapes [original->remapped]: [3, 4, 32, 32]->[3, 4, 32, 1, 32] [2, 4, 32, 65536]->[2, 4, 1, 65536, 32]

问题描述

完整报错：

Traceback (most recent call last):
  File "multi_train.py", line 38, in <module>
    trainer.train()
  File "/root/sketchMultimodal/denoising-diffusion-pytorch-master/denoising_diffusion_pyto