论文摘要
文章平均质量分 88
YangJZ_ByteMaster
怕什么真理无穷,进一寸有一寸的欢喜。
展开
-
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
将不同任务的数据格式统一为interleave的图像-文本格式,使得模型能够处理不同场景中的多种任务,如多图像任务、视频任务和3D任务。构造了新的的训练数据集M4-Instruct,包含1177.6k个样本,覆盖了14个任务和41个数据集,支持多图像、视频、3D和单图像任务。LLAVA-NeXT-Interleave在多图像、视频和3D任务中取得了领先的性能,同时保持了单图像任务的表现。通过联合训练多个任务,该模型展示了在不同设置和模式之间任务转移的新能力。原创 2024-08-21 10:29:08 · 410 阅读 · 0 评论 -
LLaVA-OneVision: Easy Visual Task Transfer
新的训练策略,先在但图上进行训练,在扩展到多图和视频。并在最后发现了处理新任务的能力。原创 2024-08-20 10:49:33 · 521 阅读 · 0 评论