X.Cristiano-CSDN博客

原创从 Nanobot 剥茧抽丝：深度拆解 OpenClaw 的极简主义设计哲学

当 Manus、OpenAI Codex、Claude Code 动辄几十万行代码时，一个仅 4000 行核心代码的 AI Agent 框架却五脏俱全：ReAct 推理循环、双层记忆系统、多渠道接入、子 Agent 协作、MCP 协议……这就是 nanobot。本文将带你逐层拆解它的技术内核。

2026-03-12 16:59:27 804

原创拒绝折腾！OpenClaw 从安装到丝滑运行，看这一篇就够了。

参考入口：官网 https://openclaw.ai/，官方文档 https://docs.openclaw.ai/（以最新为准）。你可能已经体验过“AI 写得很像，但事还是得自己做”：邮件写好了还得你点发送，日历建议给了还得你自己改，Bug 分析完了还得你开 IDE 修。：你在聊天里发一句话，它在你自己的机器上执行（读写文件、跑命令、调邮箱/日历/浏览器），然后把结果回你。在开始安装前，先理解 OpenClaw 的架构能帮你少走弯路。消息流入：你在 Telegram 发“清一下今天的邮件”

2026-03-07 14:37:43 2513

原创 GPT-5.4 发布 24 小时！OpenClaw [特殊字符] 最新配置教程全网首发

摘本文详细介绍了如何手动配置OpenClaw以使用最新的GPT-5.4模型。内容涵盖从初始化配置（包括安全模式选择、API Key设置）、模型选择到手动切换GPT-5.4的具体步骤（通过修改配置文件）。同时提供了Web UI和终端两种交互方式的操作指南，并解决了网关令牌配置等常见问题。文章还指出GPT-5.4的改进重点在于智能体功能增强，包括100万tokens上下文、原生电脑操作能力和高效工具搜索。技术细节完整，适合开发者快速上手最新AI模型。

2026-03-06 23:30:30 939

原创 VERL源码解读 &实操笔记

摘 DeepSeek R1模型通过可验证奖励强化学习（RLVR）推动了大语言模型的后训练范式革新，结合GRPO方法降低了强化学习的工业应用门槛。国内开源生态涌现出Verl、Slime等RL框架，其中VERL框架因控制-计算分离的设计（单进程控制、多进程计算）在工业场景中表现突出。其核心模块RayPPOTrainer与WorkerGroup协同实现分布式计算，通过数据分片和聚合机制提升效率，但存在Driver Process可能成为瓶颈的问题。开发者可通过VERL的文档和开源代码快速实践强化学习应用。

2026-01-25 22:27:28 1221

原创 LLM调用工具协议：Plugin、Function Call与MCP的深度解析

本文系统梳理了大模型工具调用的三种主要方式：Plugin、Function Call和MCP协议。首先介绍了发展时间线：OpenAI于2023年3月推出Plugin应用级插件协议，6月推出Function Call原子化函数协议，Anthropic则在2024年11月推出标准化的MCP协议。重点解析了Plugin的实现方式，包括manifest声明文件、plugin server和OpenAPI描述文件三要素，并通过一个待办事项插件的具体示例，展示了开发细节。

2026-01-25 22:18:51 1767

原创 VsCode 界面可视化管理提交代码、处理冲突、合并分支（详细教程）

《可视化Git操作指南：告别命令行恐惧》摘要：本文介绍如何通过VSCode图形界面轻松完成Git操作。主要内容包括：1）代码提交四步法：检查变更-拉取代码-暂存文件-提交推送；2）冲突解决方案：使用stash暂存本地修改，拉取远程代码后合并冲突；3）分支合并流程：切换分支-选择合并源-处理冲突-推送变更。全程通过点击操作完成，特别适合命令行恐惧者，让版本控制变得像使用傻瓜相机一样简单直观。

2026-01-19 10:07:56 2113

原创别再卷Agent了！一张图秒懂Agent Skills全栈能力

文章摘要本文探讨了MCP与Agent Skills的关系。MCP解决了智能体与外部工具的标准化连接问题，但存在上下文爆炸和能力鸿沟两大挑战。Agent Skills作为补充方案，通过渐进式披露机制分三层加载知识：元数据（100 token/技能）、详细指令（1k-5k token）和按需调用的附加资源。这种设计实现了连接性与能力的分离，MCP负责工具访问，Skills提供领域知识指导。两者协同工作，使智能体既能连接各种服务，又能高效执行复杂任务，显著降低了上下文窗口的负担。

2025-12-25 23:07:55 2515

原创 MemR3：基于LangGraph的反思推理、记忆和检索的RAG框架

本文提出了一种新型大模型智能体记忆检索系统MemR3，通过反射推理机制优化传统RAG框架。该系统基于LangGraph构建智能路由机制，在检索、反思、回答三个节点间动态切换，并引入"证据-缺口状态"量化搜索进度。实验显示，在LoCoMo基准测试中，MemR3显著提升了时间推理和多跳问题的处理能力，81.55%的准确率优于全上下文模式(76.32%)。系统采用早停机制和预算限制，在保证效率的同时（多数问题1次迭代解决）实现了检索过程的透明化和鲁棒性，为LLM智能体的记忆系统提供了新范式。

2025-12-25 23:00:16 831

原创再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布

本文提出了一套标准化的工作流，将学术插图生成拆分为"逻辑构建"与"视觉渲染"两个环节。首先利用LLM（如GPT-5、Claude等）将论文内容转化为结构化的[VISUAL SCHEMA]，包含布局策略（如线性/循环/层级结构）、区域划分和具体视觉元素描述；然后将该蓝图输入绘图模型（如Nano-Banana Pro）生成符合顶刊标准的2D矢量图。该方法通过分离逻辑设计与视觉实现，支持交互式微调，能高效产出技术插图，适用于CVPR/NeurIPS等学术场景。

2025-12-09 11:38:41 1880

原创位置编码演进史：SIN → ALiBi → RoPE → PI → NTK → YARN

本文系统梳理了主流位置编码方法的演进与优化路径：从基础的正弦编码（SIN）到线性偏差注意力（ALiBi）、旋转位置编码（RoPE），再到针对外推问题的位置插值（PI）和神经正切核（NTK）方法。重点剖析了RoPE通过复数思想实现相对位置编码的创新设计，以及PI通过压缩超长序列编码解决外推性的思路。最后指出NTK通过修改基底参数，在保持高频外推能力的同时实现低频内插，有效缓解了PI的高频信息损失问题。文章通过大量公式推导和可视化实验，全面展示了位置编码技术的核心思想与优化方向。

2025-11-09 21:30:15 1226

原创万字长文：AI 智能体发展史全解析

2025年被誉为“智能体元年”，AI智能体技术迎来爆发期。为帮助开发者系统学习，最新发布的《Hello-Agents》项目从历史演进视角剖析智能体发展：从符号主义时代的专家系统（如医疗诊断MYCIN）和SHRDLU积木世界，到分布式智能协作，最终发展为现代学习范式驱动的智能体。文章强调技术迭代的"问题驱动"特征——每个新范式都突破前代局限，同时带来新的挑战。通过解析物理符号系统假说、知识表示等核心概念，揭示智能体技术演进的内在逻辑与必然性，为理解当代智能体架构提供历史参照系。

2025-11-05 16:43:59 1417

原创万字长文学一学 ASR&TTS 语音基础知识

语音识别系统通过采样和量化将气压变化转化为数字信号。采样率需至少为信号最高频率的2倍（奈奎斯特定理），否则会出现混叠失真。电话语音采样率为8kHz，麦克风语音为16kHz。加窗技术（如汉明窗）提取语音帧后，通过离散傅里叶变换(DFT)分析各频段能量，为后续处理提供频谱特征。这一过程涉及气压→电信号→数字信号→加窗→DFT的完整转换链，是语音识别的基础信号处理步骤。

2025-11-05 16:33:49 985

原创 DeepSeek-OCR和Glyph用视觉压缩思路对比

DeepSeek-OCR与Glyph均通过视觉压缩优化LLM长文本处理，但侧重点不同： DeepSeek-OCR专注于OCR任务，结合SAM与CLIP的视觉编码器（16倍压缩）和MoE解码器，实现高精度文本重建（10×压缩下精度97%），并探索视觉分层模拟人类记忆机制。 Glyph面向通用长文本，将文本渲染为图像供VLM处理（如24万token小说压缩至8万视觉token），通过遗传搜索优化渲染配置，在3-4倍压缩下保持主流模型精度，为千万级上下文提供可能。

2025-11-05 15:41:33 1124

原创 10分钟上手OpenAI Agents SDK

OpenAI Agents SDK 是一个轻量级 Python 包，用于构建智能体化 AI 应用。核心功能包括：智能体配置：通过 instructions/tools/model 等参数定义 Agent 行为会话管理：自动维护跨 Agent 的对话历史（SQLiteSession）工具调用：支持函数工具集成（如 get_weather）智能体转移：通过 Handoffs 实现多 Agent 协作代码解释：内置 CodeInterpreterTool 工具该 SDK 提供了同步/异步运行方式。

2025-10-10 16:39:24 920

原创 dots.ocr: 单一视觉-语言模型中的多语言文档布局解析

dots.ocr：高效多语言文档解析新标杆 dots.ocr是一款基于1.7B参数视觉-语言模型的统一文档解析工具，在文本、表格和阅读顺序解析上达到SOTA性能，支持多语言处理并保持高效推理速度。其创新点包括：统一架构：单模型同时处理布局检测（支持11种元素类型）和内容识别（文本/公式/表格等），通过提示词即可切换任务多语言优势：在低资源语言解析中显著优于传统方案。

2025-09-30 14:35:47 984

原创 MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

MinerU2.5是一款12亿参数的视觉-语言模型，专为高效文档解析而设计。它采用两阶段策略：先进行全局布局分析，再对文本、公式和表格进行精细识别。该模型在保持高计算效率的同时，实现了布局分析、公式解析（含中英混合方程）和复杂表格处理的突破性性能。

2025-09-30 10:43:56 1796

原创 AI Agent的四象限法则：解码智能体应用的底层逻辑

AI Agent分类新框架：基于工作流和上下文确定性的智能体分类方法摘要：本文介绍了一个基于工作流(workflow)和上下文(context)两个维度的AI Agent分类框架。根据这两个维度的确定性高低，将智能体分为四种典型场景：1)高确定性场景（如RPA自动化）；2)流程固定但输入多变的语义理解场景（如客服问答）；3)输入清晰但路径多样的自主规划场景（如个性化推荐）；4)双重不确定的通用智能场景（如创新设计）。该框架揭示了自动化解决确定性、智能化解决不确定性的本质区别。

2025-09-25 20:17:05 633

原创 B站开源IndexTTS2，用极致表现力颠覆听觉体验

B站语音团队推出新一代语音合成模型IndexTTS2，在情感表达和时长控制方面取得突破。该模型创新性地提出兼容自回归架构的时间编码机制，首次实现AR模型的精确时长控制。通过音色与情感解耦建模，支持独立指定音色和情感参考，并引入基于文本描述的情感控制能力。实验表明，IndexTTS2在词错误率、说话人相似度和情感保真度等指标上优于当前先进模型。团队已开源相关代码和模型，推动零样本语音合成技术走向实用化。该技术已应用于B站"原声视频翻译"功能内测。

2025-09-25 20:01:24 1334

原创通义DeepResearch论文六连发全面解读

摘要：通义深度研究智能体通过两篇论文提出创新数据合成方法。论文一提出持续预训练框架，将多源数据转为知识库，通过一阶和高阶动作合成（FAS/HAS）生成规划与推理数据，采用两阶段训练策略（32K/128K上下文）。创新点包括知识到问题的转换、无需API的规划/推理合成，以及通过备选方案增强轨迹数据。论文二WebSailor系列提出基于图的复杂问题合成方法，构建高不确定性知识图谱，通过模糊化处理生成挑战性问题（SailorFog-QA）。V2版本改进图结构，增加循环连接以更好模拟现实知识网络。

2025-09-22 14:32:32 1657

原创深度解析通义DeepResearch：阿里开源的300亿参数深度研究智能体

通义DeepResearch的推出，不仅是阿里在大模型领域的重要布局，更代表了智能体发展的一个重要方向——从“简单问答”走向“深度研究”。它通过“全流程数据自主化”“迭代研究范式”等创新，解决了传统智能体在复杂任务中的能力短板，同时通过开源降低了行业使用门槛。未来，随着技术的迭代，它可能会在更多领域落地（如医疗研究、教育辅导），甚至成为“人人可用的私人研究助手”，让深度分析能力不再局限于专业研究者，而是普及到每个需要处理复杂信息的人。

2025-09-22 11:39:59 2320

原创 OpenAI新论文：Why Language Models Hallucinate

OpenAI论文从统计学视角分析了语言模型产生幻觉（自信输出虚假事实）的两大根源：1）预训练阶段的数据稀疏性导致对罕见事实的统计推断不可靠；2）现有评测机制过度奖励猜测行为而非诚实承认不确定性。研究发现，单纯扩大模型规模无法根本解决幻觉问题，关键在于重构评测体系，如对"我不知道"给予合理评分、惩罚盲目猜测等。论文建议在产品层面实施置信度阈值、强制证据展示等方案，通过改变激励机制使模型行为更可信。研究强调，优化评测标准比单纯追求模型规模更能有效降低幻觉率。

2025-09-06 16:14:29 1645

原创 Agent实战教程：LangGraph相关概念介绍以及快速入门

文章摘要：作者介绍了使用LangGraph框架搭建智能体(Agent)的经验，重点讲解了Langchain的ChatModel调用方式和ReAct框架。ChatModel部分展示了如何通过Langchain调用不同厂商的大模型，并以DeepSeek为例详细解析了模型返回的JSON结构。ReAct框架部分阐述了该框架如何结合推理和行动来提升语言模型性能，包括任务定义、推理轨迹生成、行动执行等步骤。文章还提供了相关官方文档链接，适合对智能体开发感兴趣的读者参考。

2025-08-25 20:24:30 886

原创 Mem0 深度解析：开源本地 AI 智能体长期记忆系统原理与实战

Mem0是一款专为AI智能体设计的开源记忆管理系统，通过结合LLM自动提取、向量存储和图数据库技术，解决了AI交互中的"遗忘"问题。该系统支持多级记忆架构，包括用户级、会话级和智能体级记忆，实现跨会话、跨应用的持久记忆管理。Mem0创新性地采用双重存储架构（向量+图数据库）和智能检索系统，提供add和search两大核心API接口，支持高效语义检索与实体关系追踪。相比OpenAI Memory，Mem0在准确率提升26%的同时降低91%延迟和90%令牌消耗。

2025-08-21 11:25:03 3539

原创通宵刷完 GPT-OSS 技术报告：OpenAI，还是你狠

最接近 o4-mini 的开源模型维度社区体感参数量116.8 B（激活 5.1 B）20.9 B（激活 3.6 B）20 B 就能跑 16 GB 机器，真香上下文YaRN + Rotary，长度管够推理强度同上三挡可调，CoT 长度平滑提升工具浏览器 + Python + 任意函数同上官方给了参考 Harness，可插拔量化同上120 B 单卡 80 GB 就能跑协议Apache 2.0Apache 2.0商用无门槛对开发者对研究社区对行业。

2025-08-06 09:31:48 1961

原创主流大模型推理框架全景解析：vLLM、SGLang、TensorRT-LLM、Ollama、XInference 横向对决

本文系统梳理了当前主流的大模型推理部署框架，包括vLLM、SGLang、TensorRT-LLM等。vLLM通过PagedAttention和Continuous Batching技术显著提升显存利用率和吞吐量，适合高并发场景；SGLang采用RadixAttention技术优化多轮对话性能，吞吐量比vLLM提升5倍；TensorRT-LLM通过预编译和量化支持，在NVIDIA GPU上实现高效推理。这些框架各有优势，适用于不同场景，为开发者选择合适的大模型部署方案提供了重要参考。

2025-07-28 20:24:31 1537

原创告别镜像拉取慢！CNB无痛加速方案，一键起飞

腾讯云原生构建平台CNB提供免费算力与镜像加速服务，配合"CNB镜像同步助手"Chrome插件，可便捷拉取国内外镜像。用户只需注册CNB账号、Fork镜像同步项目，即可通过浏览器插件快速同步Docker镜像到个人仓库，实现高速下载。该方案解决了海外镜像源访问慢的问题，支持一键同步nginx、tomcat等常用镜像，大幅提升开发效率。

2025-07-26 12:00:44 2388

原创大模型架构终极横评：Llama/Qwen/DeepSeek等6大主流框架全维度技术拆解

本文对比分析了当前主流大型语言模型(LLM)的架构发展，重点关注DeepSeek V3、OLMo 2、Gemma 3等模型的创新设计。DeepSeek V3采用多头潜在注意力(MLA)和专家混合(MoE)技术，MLA通过压缩KV缓存降低内存占用，MoE通过稀疏激活提升推理效率。OLMo 2在归一化层位置和QK-范数方面做出改进。Gemma 3则引入滑动窗口注意力机制。文章指出，尽管LLM架构保持核心Transformer结构，但在位置编码、注意力机制和归一化层等细节上持续优化，这些改进共同推动模型性能提升。

2025-07-25 18:59:14 1784

原创 Qwen-MT：翻得快，译得巧

阿里云推出全新机器翻译模型Qwen-MT，基于Qwen3模型优化，支持92种语言互译，覆盖全球95%人口。该模型采用强化学习和MoE架构，兼具高质量翻译与低成本优势（每百万token仅2元），在中英、英德等多语种翻译任务中表现优异，评测显示其翻译质量与GPT-4等顶级大模型相当。Qwen-MT提供术语干预、领域提示等专业功能，适用于高并发场景，并通过API开放服务。人工测评由专业译员验证，显示其在实际应用中的卓越表现。

2025-07-25 18:50:23 2123

原创 LangChain 入门：手把手教你搭建第一个 AI Agent

基于LangChain框架开发AI Agent的核心功能与实践案例。文章首先阐述了Agent开发的三大关键能力：大模型接入、工具决策和任务管理，并对比了主流开源框架LangChain、AutoGen和Google ADK的特点。重点分析了LangChain框架对Agent核心能力的支持：1）丰富的工具库支持多模型和数据源接入；2）嵌入预筛选+LLM决策的智能工具选择机制；3）ReAct循环实现的任务管理能力。通过一个自然语言查询SQLite数据库的实践案例，展示了如何构建具备智能推理、工具协作...

2025-07-21 10:10:58 1381

原创破解LLM“最后一公里”：后训练技术如何突破通用模型场景局限

本文系统梳理了大型语言模型后训练技术（PoLMs）的发展脉络与应用框架。文章首先区分了预训练（PLMs）与后训练（PoLMs）的定位差异，指出PoLMs专注于将通用模型适配到具体任务。通过时间轴展现了2018-2025年技术演进：从早期的SFT、预训练到RLHF、多模态的兴起，再到当前DPO、推理和MoE的火热发展。核心内容围绕后训练的五大方面展开：微调（监督/自适应/强化学习）、对齐（人类/AI反馈、直接优化）、推理增强、效率提升及多模态集成。重点解析了RLHF的反馈机制设计、奖励模型构建等关键技术，并对

2025-07-16 22:39:21 1322

原创芒果TV-影视语音多语种翻译赛-TOP10总结

本文介绍了影视多语言自动翻译比赛的解决方案。该赛题要求将中文影视音频实时翻译为英、马、泰三语字幕，面临语音识别（口音、背景音）、文化专有项翻译、多轮对话上下文理解等技术难点。团队采用两阶段方案：基于Qwen2.5-Omni-3B的语音识别模块（LoRA微调）和Qwen3-14B的多语言翻译模块，通过滑动窗口处理对话上下文，使用vLLM加速推理。关键创新包括：文化梗标注、多轮对话数据构造和并行推理优化，最终在A/B榜均进入Top10。

2025-07-16 20:32:15 1483

原创 WWW 2025 EReL@MIR 多模态检索挑战赛：竞赛总结

MIRC 2025 (Multimodal Information Retrieval Challenge) 是与 The Web Conference 2025 (WWW 2025) 联合举办的第一次 EReL@MIR 研讨会中的一个重要比赛。WWW 2025 将于 2025年4月28日至5月2日在澳大利亚悉尼举行。

2025-07-15 16:00:13 1793

原创一网打尽：requests、aiohttp、httpx 谁才是你的真命 HTTP 库？

本文对比了Python中三个HTTP客户端库(requests、aiohttp、httpx)的性能差异。测试以发送100次POST请求为基准，结果显示：requests库在不保持连接时耗时2.7秒，保持连接后缩短至1.4秒；httpx同步模式耗时1.3秒；aiohttp异步模式最快仅0.5秒，httpx异步模式也表现优异耗时0.6秒。结论表明，对于需要高频请求的场景，异步请求方式(aiohttp和httpx)具有明显性能优势，其中aiohttp最快，而httpx兼具同步/异步两种模式，使用更为灵活。

2025-07-14 14:13:53 1395

原创零前端？3分钟上线！用Streamlit把AI模型变「可点击」的神器

Streamlit是一个开源Python框架，无需前端知识即可快速构建数据应用。它支持丰富的数据展示形式（表格、图表、文本等）和交互组件（滑块、输入框等），通过简单Python代码即可控制应用逻辑。本文介绍了Streamlit的安装方法（pip install streamlit）和基本使用流程，并以Iris分类器为例展示了如何创建交互式机器学习应用。文章还详细讲解了Streamlit的核心API，包括数据展示（write、markdown、dataframe等）和用户输入组件，帮助开发者快速上手。

2025-07-14 13:56:21 1396

原创「AI Agent」≠「Agentic AI」！

本文探讨了AI Agent与Agentic AI的区别与发展。AI Agent是具备工具调用能力的独立智能体，能完成特定任务（如预订机票），但仍面临推理能力不足、幻觉等问题。而Agentic AI则是由多个AI Agent组成的协同系统，通过智能协调完成复杂目标（如智能家居管理），展现集体智能优势，但也带来错误放大、通信瓶颈等新挑战。两者代表了AI从"工具"到"组织"的演进，将推动下一代AI系统向更自主、协同的方向发展。

2025-07-14 11:32:19 965

原创 2025大模型面试60题终极指南

本文梳理了大模型相关的核心概念与常见面试题，重点解析了Transformer架构、自注意力机制、分词策略等关键技术。

2025-07-14 08:56:06 1068

原创炸裂！Kimi K2「开源核弹」：代码王者＋Agent 超脑，今日上线

月之暗面发布并开源万亿参数Kimi K2模型，采用MoE架构（激活参数32B），在代码、Agent和数学推理任务中达到开源模型SOTA水平。关键技术包括MuonClip优化器提升训练效率、大规模工具使用数据合成及通用强化学习机制。模型具备128K长上下文支持和兼容OpenAI的API接口（输入/输出tokens分别4元/16元每百万）。同步开源基础版和指令微调版，在风格化写作、知识推理等场景表现优异，未来将扩展视觉理解等能力。用户可通过官网或App体验，开发者可部署开源模型或调用API服务。

2025-07-12 11:09:10 1680

原创 pip 安装加速指南：配置国内镜像源（中国科技大学、清华、阿里云等）

摘要国内使用pip安装Python包时，默认国外PyPI源常导致下载慢、超时问题。推荐使用国内镜像源提升安装效率，如中国科技大学、清华大学等镜像。可通过临时-i参数或永久修改pip.conf/ini文件配置镜像源。Conda用户也可通过命令添加清华镜像。注意HTTPS协议、镜像同步延迟等细节。合理使用国内镜像能显著改善Python包管理体验。

2025-07-09 18:14:38 2247

原创模型融合：协同创新的未来趋势

模型融合(Model Merging)是一种无需额外训练就能组合不同模型能力的技术。通过计算任务向量(Task Vector)，即微调模型与基础模型的参数差值，可以实现不同能力的加减组合。例如将中文能力与安全对齐能力融合，或让模型忘记特定知识。该方法在大模型上效果更佳，因为参数更新更分散。未来可能形成任务向量交易市场，让用户自由组合模型能力。研究显示，当模型能力差异较大且参数更新不重叠时，融合成功率更高。这一技术为快速构建多功能模型提供了新思路。

2025-07-08 11:10:03 1268

原创通义WebSailor开源Agent多榜夺魁，向OpenAI BrowseComp高难度基准发起挑战

阿里巴巴通义实验室 RAG 团队推出了最新研究成果 WebSailor。WebSailor 带来了完整的后训练方案来弥补这一差距，使开源模型在超复杂的信息检索任务上实现突破。通过创新的数据构造和训练方法，WebSailor 成功赋予开源 Web Agent 以超人类推理能力，在 BrowseComp 等长期未解的挑战上取得了前所未有的成绩，大幅度缩小了开源模型与顶级封闭系统之间的差距。

2025-07-08 10:57:49 1165

从对齐到统一：多模态大模型的技术演进(2021~2026)

内容概要：本文系统梳理了从2021年CLIP模型问世到2025年Qwen3-Omni实现全模态统一的多模态大模型技术演进路径，涵盖五个关键发展阶段：图文对齐（CLIP）、统一理解与生成架构（BLIP/Flamingo）、LLM+视觉的桥接范式（BLIP-2、LLaVA）、中文优化与动态分辨率（Qwen-VL系列），最终迈向音频、视频、文本全模态深度融合的Qwen3-Omni。文章深入解析各阶段代表性模型的技术架构、核心创新与局限，并介绍了主流训练框架（如LLaMA-Factory、ms-swift等）及其在多模态训练中的应用。

2026-02-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

从对齐到统一：多模态大模型的技术演进(2021~2026)

台大李宏毅-AI Agent新课

Deepseek给我们带来的创业机会

AI4SCup-LLM-Rank4 比赛训练&推理代码

2024-KDD获奖代码

AIGC发展研究资料2.0-清华大学

空空如也