JasonLiu1919-CSDN博客

原创模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务

简介为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口，包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。

2025-05-04 17:10:18 346

原创微调大模型需要多少GPU显存？

起点估算:全参数微调 (FP16, AdamW): 考虑~20XGB 或更多。LoRA 微调 (FP16): 考虑GB，主要看基础模型2XGB + 激活。QLoRA 微调 (4-bit base, LoRA): 考虑GB，主要看基础模型~0.5XGB + 激活。关键变量batch_size和对激活值影响巨大。如果显存不足，优先减小这两个值，或者加强梯度检查点的使用。梯度检查点: 对于大模型微调（无论是全参数还是 LoRA），几乎是必需的技术，用计算换显存。优化器。

2025-05-04 17:07:55 889

原创部署大模型需要多少GPU显存？以DeepSeek R1部署为例

部署大型语言模型（LLM）时究竟需要多少GPU显存？本文将进行一次简单测算。

2025-04-26 21:23:07 535

原创 LLM推理中的强化学习及其实战：以GRPO为例(上篇)

如前所述，原始的RLHF方法使用了一种称为近端策略优化（PPO）的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中，"策略"是指我们想要训练的模型；在这种情况下，策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的，这有助于防止模型进行过大的更新，从而可能使训练不稳定。除此之外，PPO还在损失函数中包含了KL散度惩罚项。这一项是用以比较当前策略（正在训练的模型）与原始SFT模型。

2025-04-26 21:22:19 990

原创原生GPT-4o生图OpenAI官方透露了哪些信息？

OpenAI于2025年3月25日发布了GPT-4o(GPT-4o Native Image Generation) 系统卡的增补内容，重点介绍了其全新的原生图像生成方法——4o图像生成。更重要的是，由于4o图像生成原生嵌入在全能的GPT-4o模型架构深处，它能够利用其全面的知识以细致入微且富有表现力的方式实现这些功能，创造出既美观又实用的图像。赋予了它强大的图像处理和理解能力。通过图像到图像的转换、照片级真实感和精确的指令遵循，4o图像生成展现了广泛的应用潜力。4o图像生成的新能力也带来了新的安全风险。

2025-04-20 11:07:43 1031

原创实测Llama 4，究竟是王者归来，还是廉颇老矣？

相比于之前的模型，Llama 4系列模型是混合专家架构(MoE)的多模态模型，能够支持文本和多模态体验(输入支持文本和图片，但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。1、。具有16个专家，170亿激活参数，总参数量109B，支持10M长度的上下文(即1000 万上下文窗口)。在广泛报告的基准测试中优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Scout号称是同类产品中最好的多模态模型。

2025-04-20 11:06:20 3487

原创端侧多模态 | “袖珍战神“SmolVLM技术报告深度解读

SmolVLM是一系列为资源受限环境设计的紧凑型多模态模型，其核心在于通过创新的架构设计、高效的token化策略和优化的数据管理，实现了在极低计算成本下的卓越性能。研究者们系统地探索了影响小型视觉语言模型效率和能力的多个因素，包括编码器与语言模型的参数分配、上下文长度、视觉token压缩以及针对图像和视频数据的特定处理方法。实验结果表明，SmolVLM在多个视觉语言理解和视频理解基准测试中表现出色，甚至超越了一些参数量远大于它的大型模型，这证明了精心设计的轻量级模型在资源受限的应用场景中具有巨大的潜力。

2025-04-19 21:43:31 1003

原创字节开源地表最强GUI Agent：UI-TARS

UI-TARS是一个原生的 GUI Agent模型，该模型仅以屏幕截图作为输入，并执行类似人类的交互操作（例如，键盘和鼠标操作）。与依赖于经过大量封装的商业模型（例如 GPT-4o）以及专家精心设计的提示和工作流程的现有Agent框架不同，UI-TARS 是一个端到端的模型，其性能超越了这些复杂的框架。实验表明，UI-TARS 在 10 多个 GUI Agent 基准测试中取得了SOTA。

2025-04-19 21:40:47 1612

原创推理模型专题 | Search-o1技术解读-智能RAG助力O1推理模型突破知识盲区

Search-o1旨在解决大型推理模型(LRMs)在推理过程中常遇到的知识不足问题。该框架通过集成agentic检索增强生成(RAG)机制和文档推理模块，使模型能够在需要时动态检索外部知识，并将其无缝整合到推理过程中。实验表明，Search-o1在科学、数学和编码等复杂推理任务以及开放域问答基准上都取得了显著的性能提升。Q1:这篇文章想要解决什么问题？A1:论文主要解决大型推理模型(LRMs)在进行复杂推理时面临的知识不足问题。

2025-01-19 21:22:44 977

原创推理模型专题 | 开源类O1：Marco-o1技术全面解读

阿里国际数字化商业团队(非Qwen团队)提出Marco-o1，该模型不仅关注数学、物理和编程等具有标准答案的学科领域(这些领域非常适合强化学习)，还更加注重开放性解决方案。Marco-o1旨在解答一个问题:"o1模型能否有效地推广到那些缺乏明确标准且难以量化奖励的更广泛领域？Marco-o1采用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新的推理动作策略，专门针对复杂的现实问题求解任务进行了优化。基于CoT数据的微调。

2025-01-19 14:22:35 1204

原创从哈佛取消30门文科课说起：AI时代，我们还需要文科专业吗？

这意味着不必通过传统的文科专业教育，也能培养深厚的人文素养。随着AI技术的发展，纯粹的人文学科专业可能难以适应未来就业市场的需求。总的来说，在AI时代，我们需要的是将人文素养融入各个专业而非孤立的文科教育。从教育资源配置的角度看，单独设置文科专业的投入产出比正在降低。将有限的教育资源更多投向STEM学科，同时在通识教育中加强人文素养培养，可能是更优的选择。在人工智能时代的发展背景下，文科专业的存在价值确实需要重新思考。值得注意的是，很多在人文领域做出重要贡献的人，并非科班出身。3、AI时代对人才的新要求。

2025-01-04 16:44:29 764

原创 Agent系列：AppAgent v2-屏幕智能Agent(详解版)

随着多模态大语言模型（MLLM）的发展，视觉智能体（Agent）正逐渐在软件界面中，尤其是图形用户界面（GUI）中，发挥重要作用。本文设计了一个专为移动设备打造的智能体框架，该框架基于大语言模型，能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间，增强了其在不同应用程序中的适应性，支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段：探索（Exploration）和部署（Deployment）。

2025-01-01 16:59:33 1611

原创 Agent系列：多模态智能体AppAgent v2助力AI手机(简化版)

AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制，显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现，并展示了其在未来智能体研究中的巨大潜力。

2025-01-01 16:56:43 1458

原创 AI手机新纪元：AutoGLM开启后APP时代下的挑战与机遇

山黛远，月波长，暮云秋影蘸潇湘。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖热干面的小女孩。近日，国内知名AI公司智谱在中国计算机大会（CNCC）上发布的AutoGLM引发了业界广泛关注。这款突破性的AI智能体产品能通过语音指令理解用户意图，模拟人类操作手机，自动完成从网页浏览、商品购物到社交媒体互动等多种复杂任务。同期，Anthropic公司推出的Claude 3.5系列模型（Sonnet和Haiku）也引入了computer use功能，展现了AI操控设备的新能力。

2024-12-08 19:50:23 928

原创万字长文细说端侧大模型进展(下篇)：AutoGLM类Agent隐私安全有感

本综述全面阐述了设备上语言模型（LLMs）的最新进展，重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。这些进步推动了复杂语言模型在资源受限设备上的部署，为各行业提供了更好的数据保护、低延迟和普及先进AI能力的机会。从云端到边缘的LLM部署转变标志着人机交互范式的革新，开辟了个性化、情境感知和即时AI体验的新途径，促进了各领域的智能化发展。然而，设备上LLM仍面临平衡性能与资源限制、确保模型鲁棒性及开发持续学习机制等挑战。此外，能源效率、可持续性和负责任的部署问题也日益突出。

2024-12-08 19:46:20 1632

原创万字长文梳理端侧大模型进展(上篇)：由AutoGLM类Agent隐私安全有感

大型语言模型（LLMs）的出现彻底改变了自然语言处理（NLP）领域。由于其在边缘设备上的低延迟、数据本地化和个性化用户体验的优势，越来越多的研究关注在资源受限环境中部署LLMs的挑战与解决方案。本文综述了设备端语言模型的发展，包括高效架构设计、模型压缩技术及硬件加速策略，并通过案例研究展示其实际应用及潜在优势。

2024-12-07 15:27:06 1298

原创全面深入解读Movie Gen技术原理5部曲：4-精准视频编辑

随着视频内容的普及，对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向，旨在让用户通过自然语言简单快速地编辑视频。然而，受限于有监督视频编辑数据的稀缺，高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。Movie Gen Edit 的训练基于两个假设:显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频，而非仅处理有限特征。收集大规模视频编辑监督数据困难，导致训练-测试场景差异。

2024-12-07 15:17:37 1057

原创腾讯Hunyuan3D-1.0：快速生成高质量3D资产的秘诀大公开！

多视图生成模型：通过并行生成多视图图像来增强3D信息的理解，使用自适应分类器自由指导（CFG）来平衡不同视图的可控性和多样性。稀疏视图重建模型：利用不完全一致的多视图图像恢复底层3D形状，结合未校准的条件图像作为辅助输入以补偿生成图像中未见部分。以下简单介绍腾讯的Hunyuan3D-1.0框架，该框架统一了文本到3D和图像到3D生成的流程，能够在短时间内生成高质量的3D资产。统一框架：Hunyuan3D-1.0是一个统一的框架，支持高质量的文本和图像条件下的3D生成。

2024-11-15 20:55:41 573

原创全面深入解读Movie Gen技术原理(5部曲)：个性化视频生成(3)

本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构，通过将个性化信息整合到视频生成过程中，实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破，还具有广泛的实际应用前景，为个性化高质量视频生成开辟了新的可能性。后续将进一步解读Movie Gen的视频精准编辑和声音生成。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号Movie Gen在个性化视频生成领域取得了显著进展。

2024-11-09 18:56:03 1140

原创万字长文深度解读Movie Gen技术原理(5部曲)：图像&视频联合生成模型 (2)

今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率优化等。此外，还详细介绍了预训练数据的准备过程，包括视觉筛选、运动筛选、内容筛选和字幕生成等步骤。整体上，全面深入地解析了Movie Gen的核心技术原理。后文将从个性化视频生成、精准视频编辑、音频生成这3个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号。小窗幽记机器学习。

2024-11-09 18:27:13 1482

原创全面深入解读Movie Gen技术原理(5部曲)：概述 (1)

研究发现，通过扩大训练数据、计算资源和模型参数，使用Flow Matching训练的Transformer模型可以生成高质量的视频或音频。Meta据此打造Movie Gen的2种基础模型：Movie GenVideo和Movie GenAudio。Movie Gen Video和Movie Gen Audio模型参数量分别是300亿和130亿。

2024-10-07 16:55:32 2391

原创突发！Meta重磅发布Movie Gen入局视频生成赛道！

作为最先进和沉浸式的讲故事模型套件，Movie Gen具备四种核心功能：视频生成、个性化视频生成、精确视频编辑和音频生成。这些模型的训练采用了经过授权和公开可用的数据集组合。虽然研究论文中详细阐述了技术细节，但本篇博文将重点分享每种功能的出色表现。后续会补充该论文的技术细节，感兴趣的小伙伴可以留意下。

2024-10-05 15:18:27 882

原创 LLM端侧部署系列 | PowerInfer-2助力AI手机端侧部署47B大模型 (论文解读)

为啥大模型要做端侧部署？除了常说的端侧数据安全隐私，其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型（LLM）而设计的框架，特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言，在PowerInfer-2中设计多态神经元引擎，能够根据LLM推理的不同阶段自适应采用不同的计算策略。此外，引入了分段神经元缓存(neuron caching) 和细粒度神经元集群级流水线。

2024-10-05 14:13:42 2090

原创 LLM端侧部署系列 | 手机上运行47B大模型?上交推理框架PowerInfer-2助力AI手机端侧部署

近日，上海交大为大模型能够在智能手机上部署提出PowerInfer-2，该框架是专为智能手机设计且高度优化的推理框架。目前PowerInfer-2支持的最大模型是Mixtral 47B MoE模型，在inference的时候每秒可生成11.68个token，这比其他最先进的框架快22倍。即使是使用7B模型，PowerInfer-2只需将50%的FFN权重放置在手机上，在7B这个模型参数上，仍然是目前最快的推理框架！更多大模型相关，如模型解读、模型微调、模型部署、推理加速。

2024-10-04 12:13:56 1499

原创端侧Agent系列 | 端侧AI Agent任务拆解大师如何助力AI手机？(详解版)

AI智能体由于其能够自主决策并执行任务并解决诸多问题，从而在各领域变得越发重要。为了有效运作AI Agent，NexaAI的研发人员提出了一种设备端规划-执行框架Octo-planner和Octopus执行智能体。Octo-planner将任务分解为子步骤，然后由Octopus模型(指之前提出的Octopus v1、v2、v3、v4模型)执行。为优化资源受限设备上的运行性能，官方使用模型微调而非上下文学习，从而降低计算成本和能耗，提高响应速度。

2024-10-04 11:13:56 1621

原创论文推荐 |【Agent】自动化Agent设计系统

• 引入了自动化代理系统设计（ADAS），这是一个新的研究领域，用于自动创建强大的代理系统设计。- 在领域迁移后，GSM-Hard任务的准确率提高了13.2%• 以代码形式表示代理，使元代理能够编程出越来越优秀的代理。- 在领域迁移后，GSM8K任务的准确率提高了25.9%自动化代理设计在性能和通用性方面显著超越了手动方法。• 在数学任务（MGSM）上将准确率提高了14.4%- 基于不断演进的先前发现档案，迭代生成新的代理。• 在多个领域超越了最先进的手动设计代理。• 理论上能够发现任何可能的代理系统。

2024-10-03 22:02:50 678

原创端侧大模型系列 | 端侧AI Agent任务拆解大师如何助力AI手机？(简短版)

随着AI技术的发展，AI Agent应用越来越广泛，但大多数依赖大型语言模型，需要强大计算资源和网络连接，限制了其在边缘设备上的应用。为此，研究人员提出了Octo-planner，一个专为边缘设备优化的规划Agent框架：Octo-planner。Octo-planner是一个高效的Planner-Action框架，将规划和执行分为两个组件：针对边缘设备优化的规划Agent和使用Octopus模型的执行Agent。它将任务分解为子步骤，由Octopus执行。

2024-10-03 21:43:33 1513

原创面向大学生 | 算法可视化讲解：翻转链表

1.使用三个指针：prev,curr,next2.设置：prev = NULL，curr = HEAD3.保存下一个节点：next =current.next4. 反转当前节点的链接，使其指向上一个节点： curr.next = prev5. 将上一个移至当前，将当前移至下一个：prev = curr, curr = next6.重复步骤 3-5，直到current为NULL7. 循环结束后，prev 将指向反转列表的新头部。翻转链表-可视化。

2024-10-03 21:16:43 268

原创风格迁移还能玩出花？谷歌重磅推出新风格迁移模型：零训练，秒变大师级风格！

由此产生的漂移不仅克服了上述困难，还确保了对参考风格的高度保真，并遵循给定的文本提示。通过理论论证和实证证据，RB-Modulation框架展示了在无需训练的情况下精确提取和控制内容和风格。此外，RB-Modulation的方法允许内容和风格的无缝组合，这标志着摆脱了对外部适配器或 ControlNets 的依赖。总之，RB-Modulation提供了一种强大且灵活的工具，为图像处理和生成艺术开辟了新的道路，让用户能够轻松实现各种独特的风格创造与内容融合。(b) 参考风格图像中不必要的内容泄漏，以及。

2024-10-01 23:28:44 385

经典模式识别教材matlab代码

空空如也