美杜莎加速推理大模型框架理解

最新推荐文章于 2025-04-29 09:30:00 发布

homeboy_leung

最新推荐文章于 2025-04-29 09:30:00 发布

阅读量1.3k

点赞数 14

文章标签：机器学习人工智能语言模型

本文链接：https://blog.csdn.net/m0_57362558/article/details/137084703

版权

本文章是对于美杜莎加速推理框架的大致理解，具体代码可以参考 https://github.com/FasterDecoding/Medusa)，经过美杜莎的加速，推理速度能达到原始模型速度的两倍多，可以应用于llama架构的大模型。

该框架的核心是在transformer layers处理后的最后一个隐藏层处添加多个美杜莎头，从而同时预测多个未来的tokens，实现一次推理可以得到多个tokens，具体的实现是通过美杜莎树的结构来生成。

1.美杜莎头

单个美杜莎头的结构代码如下，残差层+线性层的组合

Sequential(
    (0): ResBlock(
      (linear): Linear(in_features=4096, out_features=4096, bias=True)
      (act): SiLU()
    )
    (1): Linear(in_features=4096, out_features=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

homeboy_leung

关注关注

14
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型推理加速调研（框架、方法）

qq_33287871的博客

01-05

869

大模型推理加速的目标是高吞吐量、低延迟。吞吐量为一个系统可以并行处理的任务量。延时，指一个系统串行处理一个任务时所花费的时间。调研了一些大模型推理的框架。近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，为了将大模型部署在端侧设备中，我们需要使用一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。量化（Quantization）剪枝（Pruning）知识蒸馏（Knowledge Distillation）

Speculative Streaming：无需辅助模型的快速大模型推理

人工智能讲师分享前沿技术

08-06

1004

人工智能咨询培训老师叶梓转载标明出处在自然语言处理领域，大模型（LLM）在进行推理时，由于其自回归生成的特性，往往需要较高的计算成本和内存占用。为了解决这一问题，苹果公司的研究者们提出了一种名为Speculative Streaming的新方法。这种方法通过改变目标模型的微调目标，从下一个词预测转变为未来n-gram预测，从而将草稿生成过程融合到目标模型中，无需使用辅助草稿模型。这一创新不仅简化了推理系统，还提高了推理速度，同时保持了生成质量。

1 条评论您还未登录，请先登录后发表或查看评论

Medusa: 加速大语言模型生成的简单框架

m0_56734068的博客

10-16

873

与只训练新头部的Medusa-1相比,Medusa-2需要一种特殊的配方,既能添加推测预测能力,又能保持原始模型的性能。无论您是研究人员、开发人员还是对AI感兴趣的爱好者,Medusa都为探索和改进大语言模型的生成过程提供了一个激动人心的机会。在初始版本中,Medusa主要针对批量大小为1的情况进行了优化,这是本地模型托管中常用的设置。Medusa的核心思想是在同一个模型上训练多个解码头,而不是引入一个新的模型。: 通过在同一模型上添加额外的"头部",Medusa避免了引入新模型带来的复杂性。

大模型框架：vLLM

最新发布

2401_85375186的博客

04-29

1232

尽管每个 Agent 应用框架都拥有出色的功能，但鉴于生成式人工智能领域的迅猛发展，这些框架也在持续进行更新与优化。企业在选择框架时，应主要依据自身的具体需求，例如业务场景、应用类型、安全性要求、性能表现以及其他相关技术细节。如果你真的想学习大模型，请不要去网上找那些零零碎碎的教程，真的很难学懂！你可以根据我这个学习路线和系统资料，制定一套学习计划，只要你肯花时间沉下心去学习，它们一定能帮到你！

常见大模型框架

不忘初心

04-30

747

StyleGAN（及其变体StyleGAN2和StyleGAN3）：开发者：NVIDIA特点：能够生成极高质量的图像，广泛应用于人脸生成、艺术创作等领域。BigGAN：开发者：DeepMind特点：在大规模数据集上训练的高质量图像生成模型，特别适用于高分辨率图像生成。CycleGAN：特点：用于图像到图像的转换任务，如风格迁移，无需成对的训练数据。Pix2Pix：特点：适用于图像到图像转换的任务，需要成对的训练数据。

4、大模型应用开发框架

hugo

06-30

1367

LangSmith：生产级LLM应用开发平台LangChain：LLMs应用开发框架LangChain-Community：第三方集成LangChain-Core：LCEL等协议LangChain Templates：开箱即用APP示例LangServe：Chains生产部署（REST API）

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

2402_84466582的博客

07-29

9856

大模型框架汇总：大模型框架Ollama、大模型框架vLLM、大模型框架LightLLM、大模型框架llama.cpp、大模型框架LocalAI、大模型框架veGiantModel

全网最全-超大模型+分布式训练架构和经典论文

ZOMI酱

12-28

4962

全网最全的超大模型和分布式训练架构梳理，并附上经典论文简介。

阿里面试官：大模型上线前为什么要做推理优化？985学妹的满分回答！

dsxaigc的博客

08-08

495

大模型上线前为什么要做推理优化，这么回答面试满分！

AI大模型框架大全：Ollama、vLLM等六大框架解析，一篇文章掌握！非常详细收藏我这一篇就够了！

m0_65555479的博客

12-14

7149

vLLM是一个基于Python的LLM推理和服务框架，由伯克利大学LMSYS组织开源。它通过创新的PagedAttention技术、连续批处理、CUDA核心优化以及分布式推理支持，显著提高了LLM的推理性能。vLLM不仅简单易用，而且性能高效，广泛应用于各种NLP任务中。

medusa:生成SQL数据模型以进行测试

03-14

Medua-生成用于测试SQL数据模型与Docker一起运行： docker run --rm -it -v "$PWD":/work elibouassaba/medusa shell:>generate /work/medusa.sql

大模型落地 | 大模型应用开发过程中主流架构模式（大模型+多个小模型）

m0_56255097的博客

10-14

1239

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

GraphRAG + Ollama 本地部署全攻略：避坑实战指南

bagell的博客

08-23

1438

1微软开源 GraphRAG 后，热度越来越高，目前 GraphRAG 只支持 OpenAI 的闭源大模型，导致部署后使用范围大大受限，本文通过 GraphRAG 源码的修改，来支持更广泛的 Embedding 模型和开源大模型，从而使得 GraphRAG 的更容易上手使用。2需要 Python 3.10-3.12 环境。安装完整后，需要创建一个文件夹，用来存储你的知识数据，目前 GraphRAG 只支持 txt 和 csv 格式。首先，我们需要运行以下命令来初始化。

轻松集成所有大模型——一站式大模型应用开发框架Promptulate

Zeeland的博客

03-31

1519

Promptulate 是Cogit Lab打造的 AI Agent 应用开发框架，通过 Pythonic 的开发范式，旨在为开发者们提供一种极其简洁而高效的 Agent 应用构建体验。🛠️ Promptulate 的核心理念在于借鉴并融合开源社区的智慧，集成各种开发框架的亮点，以此降低开发门槛并统一开发者的共识。通过 Promptulate，你可以用最简洁的代码来操纵 LLM, Agent, Tool, RAG 等组件，大多数任务仅需几行代码即可轻松完成。

快速掌握6大模型部署框架(Pytorch+NCNN+MNN+Tengine+TensorRT+微信小程序)

张伟的专栏

11-22

497

快速掌握6大模型部署框架(Pytorch+NCNN+MNN+Tengine+TensorRT+微信小程序)

透彻理解大模型框架：Transformer模型原理详解与机器翻译

zql1009的博客

05-15

1万+

已知神经网络权重：W_q, W_k, W_v。

AI智能体研发-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

瓦罗兰特顶级C位的博客

08-13

1432

今天力荐的项目是LLaMA-Factory，我在去年8月份就开始使用这个项目进行模型部署和微调训练（fine tune），当时各家大模型仅限于推理测试，OpenAI还没有对外提供微调服务，加上这个项目部署丝滑（更新及时，不会出现环境依赖问题，代码逻辑上几乎无错误），觉得好牛啊。现在来看项目已经达到22K星，果然酒深不怕巷子香。

一篇文章搞懂LangChain

weixin_40920183的博客

07-09

1124

来源：分布式实验室在日常生活中，我们通常致力于构建端到端的应用程序。有许多自动机器学习平台和持续集成/持续交付（CI/CD）流水线可用于自动化我们的机器学习流程。我们还有像 Roboflow 和 Andrew N.G. 的 Landing AI 这样的工具，可以自动化或创建端到端的计算机视觉应用程序。如果我们想要借助 OpenAI 或 Hugging Face 创建基于大语言模型的应用程序，以前我...

kali美杜莎密码爆破

08-21

Kali Linux中的美杜莎（Medusa）并不是密码爆破工具，而是一个自动化Web应用漏洞扫描器，主要用于检测网站的安全漏洞。它不是专门用于密码破解的，而是通过一系列技术如目录遍历、文件包含、SQL注入等对目标站点进行测试，帮助安全人员发现潜在的弱点。在密码爆破方面，Linux系统中常用的工具包括John the Ripper（JTR）、Hydra等，它们可以针对特定的用户账号进行暴力破解或者字典攻击。例如，JTR支持多种哈希格式，能尝试大量的密码组合；Hydra则常用于多线程暴力破解，并支持多种协议（如SSH、FTP、HTTP）的登录凭证猜测。如果你需要了解如何在Kali上使用这些工具进行密码恢复或验证，请告诉我，我会提供相关的教程和命令行操作指导。