MLLM & LLM
文章平均质量分 93
论文阅读
kaka0010
退役ACMer/算法竞赛菜鸡
展开
-
【LLM】大模型推理加速 KV-Cache
是QKV的投影矩阵,H是多头自注意力中head的个数。KV Cache的总大小是2nHD,其中n是token数量,H是head数量,D是。在了解KVCache之前,我们需要知道Transformer类大模型的推理过程。最后一种方式也就是现在常用的PageAttention,也是vllm的核心技术。也是可行的,但很容易发现一个问题,Token Embedding中。,将它们保存下来,就得到了K Cache和V Cache。这部分的值是不需要重新计算的。在每次计算过程中得到的中间值。的数据,再加上新来的。原创 2024-03-25 19:10:56 · 1607 阅读 · 0 评论 -
【多模态LLM】A Survey on Multimodal Large Language Models 学习笔记
多模态大语言模型(MLLM)是近年来以强大的大语言模型(LLMs)作为大脑任务的多模态研究热点。MLLM令人惊讶的涌现能力,比如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,我们提出了MLLM的公式,并描述了它的相关概念。然后,我们讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和大语言模型辅助视觉推理(LAVR)。翻译 2023-09-11 15:29:53 · 669 阅读 · 1 评论 -
【VQA综述】Visual Question Answer:A Survey of Method and Datasets 学习笔记
视觉问答(VQA)是一项具有挑战性的工作,而且已经接收到来自计算机视觉和自然语言社区越来越多的注意。给定图像和自然语言问题,就需要对图像的视觉元素和常理进行推理得到正确的答案。在这个研究的第一部分,我们通过比较现代解决问题的技术来审视了艺术现状(?我们通过他们将视觉和文本联系起来的机制将方法进行了分类。特殊地,我们研究了使用卷积神经网络和循环神经网络将图片映射到特征空间的常用方法。我们还讨论了与结构化知识基础相关联的内存增强和模块化体系。在研究的第二部分,我们回顾了用于训练和评估VQA系统的数据集的可用性。翻译 2023-09-09 16:07:22 · 911 阅读 · 0 评论