论文极速读
文章平均质量分 94
FesianXu
腾讯-微信事业群-高级算法工程师
百度-搜索策略部-前高级算法工程师
展开
-
【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计
之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。原创 2024-03-31 20:57:32 · 935 阅读 · 0 评论 -
Kosmos-1: 通用接口架构下的多模态大语言模型
kosmos 构建一个通用接口的多模态大语言模型原创 2024-03-03 11:23:06 · 1001 阅读 · 0 评论 -
【论文极速读】MetaLM:一种融合因果语言模型和非因果语言模型的方法
最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。原创 2024-02-19 19:39:42 · 820 阅读 · 0 评论 -
【论文极速读】Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节,本文对该工作进行读后感笔记。原创 2024-02-17 16:59:53 · 1083 阅读 · 0 评论 -
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。原创 2024-02-03 18:45:31 · 1280 阅读 · 0 评论 -
【论文极速读】视频检索中的模态均衡方法
多模态落地过程中的模态不均衡问题原创 2023-12-07 13:10:57 · 268 阅读 · 0 评论 -
【论文极速读】EMT——评估多模态LLM中的灾难性遗忘问题
评估多模态LLM模型的灾难性遗忘现象原创 2023-10-07 20:39:56 · 427 阅读 · 0 评论 -
【论文极速读】IMAGEBIND —— 通过图片作为桥梁桥联多模态语义
image bind,充分利用多模态异构数据~原创 2023-09-30 10:52:18 · 495 阅读 · 0 评论 -
【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式
Prompt tuning是一种高效的LLM下游任务适配方式原创 2023-09-29 15:18:51 · 1788 阅读 · 0 评论 -
【论文极速读】VQ-VAE:一种稀疏表征学习方法
VQ-VAE进行视觉稀疏化原创 2023-02-26 10:57:58 · 790 阅读 · 0 评论 -
【论文极速读】ERNIE VIL 2.0,多模态模型的一种多视角预训练范式
ERNIE VIL 2.0 多视角多模态的预训练方法原创 2022-12-03 13:23:15 · 294 阅读 · 0 评论