Augment Language Model
文章平均质量分 94
FesianXu
腾讯-微信事业群-高级算法工程师
百度-搜索策略部-前高级算法工程师
展开
-
【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计
之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。原创 2024-03-31 20:57:32 · 935 阅读 · 0 评论 -
Kosmos-1: 通用接口架构下的多模态大语言模型
kosmos 构建一个通用接口的多模态大语言模型原创 2024-03-03 11:23:06 · 1002 阅读 · 0 评论 -
【论文极速读】MetaLM:一种融合因果语言模型和非因果语言模型的方法
最近我在恶补一些经典的LLM工作,之前也精读过MetaLM这个工作但是没有及时笔记,现在已经有些遗忘了,因此在过年期间复习了下,在此笔记希望对诸位有所帮助。原创 2024-02-19 19:39:42 · 821 阅读 · 0 评论 -
【论文极速读】Flamingo:一种交织图文的视觉语言大模型方法
Flamingo算是DeepMind的多模态融合LLM的一个较老的工作了(2022年),之前粗略读过没来得及及时总结,本次过年笔者重新细读了论文,发现其在50多页的论文中有着不少细节,本文对该工作进行读后感笔记。原创 2024-02-17 16:59:53 · 1087 阅读 · 0 评论 -
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人类最为主要的感知世界的手段,亟待和LLM进行融合,形成多模态大规模语言模型(Multimodal LLM, MLLM),BLIP-2这篇文章利用已经充分训练好的图片编码器和LLM模型,通过Q-Former巧妙地融合在一起,在引入少量待学习参数的同时,取得了显著的效果。本文将对BLIP2进行笔记和笔者个人感想纪录,希望对诸位读者有所帮助。原创 2024-02-03 18:45:31 · 1284 阅读 · 0 评论 -
增强型语言模型——走向通用智能的道路?!?
增强型语言模型,正在突破我们的想象走向通用智能原创 2023-05-05 10:05:47 · 1024 阅读 · 0 评论