Augment Language Model
文章平均质量分 95
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
-
【论文极速读】 LLava: 指令跟随的多模态大语言模型
如何将已预训练好的大规模语言模型(LLM)和多模态模型(如CLIP)进行融合,形成一个多模态大语言模型(MLLM)是目前很火热的研究课题。本文将要介绍的LLava是一个经典的工作,其采用了指令微调的方式对MLLM进行训练,笔者在此笔记,希望对诸位读者有所帮助。原创 2024-05-19 23:05:34 · 2113 阅读 · 0 评论 -
【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计
之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。原创 2024-03-31 20:57:32 · 1180 阅读 · 0 评论 -
Kosmos-1: 通用接口架构下的多模态大语言模型
kosmos 构建一个通用接口的多模态大语言模型原创 2024-03-03 11:23:06 · 1314 阅读 · 0 评论 -
【论文极速读】MetaLM:一种融合因果语言模型和非因果语言模型的方法
最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。原创 2024-02-19 19:39:42 · 1062 阅读 · 0 评论 -
【论文极速读】Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节,本文对该工作进行读后感笔记。原创 2024-02-17 16:59:53 · 5469 阅读 · 1 评论 -
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。原创 2024-02-03 18:45:31 · 3067 阅读 · 1 评论 -
增强型语言模型——走向通用智能的道路?!?
增强型语言模型,正在突破我们的想象走向通用智能原创 2023-05-05 10:05:47 · 1181 阅读 · 0 评论