Voyager10086-CSDN博客

原创多GPU训练NCCL通信超时解决办法

两张 GPU 在进行分布式训练时，需要不断通过 NCCL 互相广播/同步参数。如果某次广播长时间没有完成（超过 600 秒），watchdog 会把整个进程杀掉，避免数据不一致。在autodl多卡训练的时候一直报错nccl通信超时的问题，

2025-11-25 21:46:18 509

视觉语言导航（VLN）模型的任务是从视觉输入（如RGB图像/视频）和语言指令（如“向右转，走到绿色地毯”）预测导航动作（如前进、左转）。作用：将视觉输入（图像/视频）编码为特征向量（称为视觉token），提取场景中的语义信息（如物体、地标）。作用：将语言指令编码为特征向量（语言token），提取指令的语义和逻辑（如“向右转”对应转向动作）。形式：RGB图像（单帧，如R2R数据集）、视频序列、深度图、或全景图。是什么：Google的语言模型，预训练于海量文本（如维基百科），擅长理解自然语言。

2025-05-12 22:42:35 2959

原创 Qwen微调踩坑记录

推理报警The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's attention_mask to obtain reliable results.

2024-11-26 20:21:32 463

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Voyager10086的博客

原创多GPU训练NCCL通信超时解决办法

原创纯小白看懂VLN视觉语言导航大模型

原创 Qwen微调踩坑记录

空空如也

空空如也

原创 多GPU训练NCCL通信超时解决办法

原创 纯小白看懂VLN视觉语言导航大模型

原创 Qwen微调踩坑记录

空空如也

空空如也

原创多GPU训练NCCL通信超时解决办法

原创纯小白看懂VLN视觉语言导航大模型