多模态大模型
文章平均质量分 88
微调记录
WeiXuanLi1014
做好现在的事
展开
-
Qwen-VL 技术报告总结
权重分为 Qwen-VL && Qwen-VL-Chat,区别文档稍后介绍。原创 2024-02-02 17:18:54 · 1480 阅读 · 1 评论 -
Self-Attention && Cross-Attention
为什么是512*512?人们常说,Transformer不能超过512,否则硬件很难支撑;从输入输出角度,N个Transformer Encoder block中的第一个Encoder block的输入为一组向量 X = (Embedding + Positional Embedding),向量维度通常为512*512,其他N个TransformerEncoder block的输入为上一个 Transformer Encoder block的输出,输出向量的维度也为512*512(输入输出大小相同)。原创 2023-07-10 17:08:59 · 1259 阅读 · 0 评论