Readpaper : )
文章平均质量分 89
个人理解
Wanderer X
环境维修不动领域博主
展开
-
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
通常,LLM的用户请求和相应的响应都在文本中,然而,纯文本人机交互对于许多应用场景来说是不够的,因为现实世界的信息通常是多模态的。为了进一步探索llm的潜力,许多研究人员试图赋予llm理解多模态内容的能力。现有的工作大多基于将单一模态的输入与文本进行对齐。赋予LLM理解视频需要对包括视觉输入、听觉输入和文本输出在内的不同模式的全面处理,这比纯图像理解和纯音频理解任务更具挑战性。为了将文本输出与视频对齐,我们设计了多分支跨模态预训练来学习视觉语言对应和音频语言对应。原创 2024-02-24 14:53:50 · 329 阅读 · 1 评论 -
Creative Agents: Empowering Agents with Imagination for Creative Tasks
论文提出了一种新颖的方法,通过赋予代理想象力,使其能够完成创造性任务。作者将代理分解为想象器和控制器,其中想象器负责将语言指令转换为具体的任务结果想象,而控制器则根据当前状态、想象和语言指令采取行动。论文提出了两种想象器变体(基于大型语言模型和基于扩散模型的视觉想象器)以及两种控制器变体(行为克隆控制器和基于GPT-4(V)的控制器)。实验证明,所提出的创造性代理能够在Minecraft的生存模式中创建各种多样化且视觉上令人满意的建筑,这在以前的研究中从未实现过。原创 2024-01-15 14:40:02 · 257 阅读 · 0 评论 -
ClipCap: CLIP Prefix for Image Captioning
ClipCap阅读笔记。我们使用CLIP编码作为标题的前缀,通过使用一个简单的映射网络,然后微调一个语言模型来生成图像标题。最近提出的CLIP模型包含丰富的语义特征,经过文本上下文的训练,使其最适合视觉语言感知。我们的关键思想是,结合预先训练的语言模型(GPT2),我们可以获得对视觉数据和文本数据的广泛理解。因此,我们的方法只需要相当快速的训练,以产生一个合格的字幕模型。无需额外的注释或预先训练,它可以有效地为大规模和多样化的数据集生成有意义的标题。原创 2022-11-20 21:59:15 · 1838 阅读 · 1 评论 -
Visual Prompt Tuning (VPT)
VPT阅读笔记原创 2022-11-16 11:31:25 · 2538 阅读 · 0 评论