- 博客(1)
- 收藏
- 关注
转载 Video-LLaVA
北京大学的研究人员提出了一种名为Video-LLaVA的解决方案。Video-LLaVA的重点在于将图片和视频特征提前绑定到一个统一的特征空间中,以便语言模型能够从统一的视觉表示中学习模态之间的交互。为了提高计算效率,Video-LLaVA采用了联合图片和视频的训练和指令微调策略。北京大学和其他机构的研究人员近期提出了一种...
2024-08-03 02:28:50
116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅