![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多模态
文章平均质量分 88
一只特蕉
一个致力于特立独行的香蕉
展开
-
Meta-Transformer: A Unifeid Framework for Multimodal Learning 导读
提出了Meta-Transformer框架,能够同时处理12种不同的数据模态,并使用同一组参数来提取表示。实验结果表明,在各种多模态学习任务中,Meta-Transformer表现出了优异的性能,并且比现有方法具有更好的泛化能力。论文提出了一个统一的映射函数F,将来自任何模态的数据x映射到预测值ˆy,并探讨了如何在不同模态之间共享参数以提高模型效率的问题。原创 2024-01-26 15:14:39 · 417 阅读 · 0 评论 -
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models 导读
本文提出了一个名为MiniGPT-4的新型视觉语言模型,该模型利用了先进的大型语言模型LLM Vicuna,并结合BLIP-2的视觉感知能力,实现了与GPT-4类似的多种高级视觉语言能力。通过在图像描述数据集上预训练Vicuna并对其进行微调,作者成功地使MiniGPT-4能够生成详细的图像描述、构建网站、解释视觉现象等任务。原创 2024-01-26 14:31:10 · 362 阅读 · 0 评论