自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI前沿技术的分享!

AI前沿技术的分享!

  • 博客(238)
  • 收藏
  • 关注

原创 从 Nanobot 剥茧抽丝:深度拆解 OpenClaw 的极简主义设计哲学

当 Manus、OpenAI Codex、Claude Code 动辄几十万行代码时,一个仅 4000 行核心代码的 AI Agent 框架却五脏俱全:ReAct 推理循环、双层记忆系统、多渠道接入、子 Agent 协作、MCP 协议……这就是 nanobot。本文将带你逐层拆解它的技术内核。

2026-03-12 16:59:27 724

原创 拒绝折腾!OpenClaw 从安装到丝滑运行,看这一篇就够了。

参考入口:官网 https://openclaw.ai/,官方文档 https://docs.openclaw.ai/(以最新为准)。你可能已经体验过“AI 写得很像,但事还是得自己做”:邮件写好了还得你点发送,日历建议给了还得你自己改,Bug 分析完了还得你开 IDE 修。:你在聊天里发一句话,它在你自己的机器上执行(读写文件、跑命令、调邮箱/日历/浏览器),然后把结果回你。在开始安装前,先理解 OpenClaw 的架构能帮你少走弯路。消息流入:你在 Telegram 发“清一下今天的邮件”

2026-03-07 14:37:43 2254

原创 GPT-5.4 发布 24 小时!OpenClaw [特殊字符] 最新配置教程全网首发

摘本文详细介绍了如何手动配置OpenClaw以使用最新的GPT-5.4模型。内容涵盖从初始化配置(包括安全模式选择、API Key设置)、模型选择到手动切换GPT-5.4的具体步骤(通过修改配置文件)。同时提供了Web UI和终端两种交互方式的操作指南,并解决了网关令牌配置等常见问题。文章还指出GPT-5.4的改进重点在于智能体功能增强,包括100万tokens上下文、原生电脑操作能力和高效工具搜索。技术细节完整,适合开发者快速上手最新AI模型。

2026-03-06 23:30:30 822

原创 VERL源码解读 &实操笔记

摘 DeepSeek R1模型通过可验证奖励强化学习(RLVR)推动了大语言模型的后训练范式革新,结合GRPO方法降低了强化学习的工业应用门槛。国内开源生态涌现出Verl、Slime等RL框架,其中VERL框架因控制-计算分离的设计(单进程控制、多进程计算)在工业场景中表现突出。其核心模块RayPPOTrainer与WorkerGroup协同实现分布式计算,通过数据分片和聚合机制提升效率,但存在Driver Process可能成为瓶颈的问题。开发者可通过VERL的文档和开源代码快速实践强化学习应用。

2026-01-25 22:27:28 1106

原创 LLM调用工具协议:Plugin、Function Call与MCP的深度解析

本文系统梳理了大模型工具调用的三种主要方式:Plugin、Function Call和MCP协议。首先介绍了发展时间线:OpenAI于2023年3月推出Plugin应用级插件协议,6月推出Function Call原子化函数协议,Anthropic则在2024年11月推出标准化的MCP协议。重点解析了Plugin的实现方式,包括manifest声明文件、plugin server和OpenAPI描述文件三要素,并通过一个待办事项插件的具体示例,展示了开发细节。

2026-01-25 22:18:51 1601

原创 VsCode 界面可视化管理提交代码、处理冲突、合并分支(详细教程)

《可视化Git操作指南:告别命令行恐惧》摘要: 本文介绍如何通过VSCode图形界面轻松完成Git操作。主要内容包括:1)代码提交四步法:检查变更-拉取代码-暂存文件-提交推送;2)冲突解决方案:使用stash暂存本地修改,拉取远程代码后合并冲突;3)分支合并流程:切换分支-选择合并源-处理冲突-推送变更。全程通过点击操作完成,特别适合命令行恐惧者,让版本控制变得像使用傻瓜相机一样简单直观。

2026-01-19 10:07:56 1614

原创 别再卷Agent了!一张图秒懂Agent Skills全栈能力

文章摘要 本文探讨了MCP与Agent Skills的关系。MCP解决了智能体与外部工具的标准化连接问题,但存在上下文爆炸和能力鸿沟两大挑战。Agent Skills作为补充方案,通过渐进式披露机制分三层加载知识:元数据(100 token/技能)、详细指令(1k-5k token)和按需调用的附加资源。这种设计实现了连接性与能力的分离,MCP负责工具访问,Skills提供领域知识指导。两者协同工作,使智能体既能连接各种服务,又能高效执行复杂任务,显著降低了上下文窗口的负担。

2025-12-25 23:07:55 2345

原创 MemR3:基于LangGraph的反思推理、记忆和检索的RAG框架

本文提出了一种新型大模型智能体记忆检索系统MemR3,通过反射推理机制优化传统RAG框架。该系统基于LangGraph构建智能路由机制,在检索、反思、回答三个节点间动态切换,并引入"证据-缺口状态"量化搜索进度。实验显示,在LoCoMo基准测试中,MemR3显著提升了时间推理和多跳问题的处理能力,81.55%的准确率优于全上下文模式(76.32%)。系统采用早停机制和预算限制,在保证效率的同时(多数问题1次迭代解决)实现了检索过程的透明化和鲁棒性,为LLM智能体的记忆系统提供了新范式。

2025-12-25 23:00:16 796

原创 再也不担心论文!Nano-Banana Pro 论文绘图最全教程发布

本文提出了一套标准化的工作流,将学术插图生成拆分为"逻辑构建"与"视觉渲染"两个环节。首先利用LLM(如GPT-5、Claude等)将论文内容转化为结构化的[VISUAL SCHEMA],包含布局策略(如线性/循环/层级结构)、区域划分和具体视觉元素描述;然后将该蓝图输入绘图模型(如Nano-Banana Pro)生成符合顶刊标准的2D矢量图。该方法通过分离逻辑设计与视觉实现,支持交互式微调,能高效产出技术插图,适用于CVPR/NeurIPS等学术场景。

2025-12-09 11:38:41 1801

原创 位置编码演进史:SIN → ALiBi → RoPE → PI → NTK → YARN

本文系统梳理了主流位置编码方法的演进与优化路径:从基础的正弦编码(SIN)到线性偏差注意力(ALiBi)、旋转位置编码(RoPE),再到针对外推问题的位置插值(PI)和神经正切核(NTK)方法。重点剖析了RoPE通过复数思想实现相对位置编码的创新设计,以及PI通过压缩超长序列编码解决外推性的思路。最后指出NTK通过修改基底参数,在保持高频外推能力的同时实现低频内插,有效缓解了PI的高频信息损失问题。文章通过大量公式推导和可视化实验,全面展示了位置编码技术的核心思想与优化方向。

2025-11-09 21:30:15 1155

原创 万字长文:AI 智能体发展史全解析

2025年被誉为“智能体元年”,AI智能体技术迎来爆发期。为帮助开发者系统学习,最新发布的《Hello-Agents》项目从历史演进视角剖析智能体发展:从符号主义时代的专家系统(如医疗诊断MYCIN)和SHRDLU积木世界,到分布式智能协作,最终发展为现代学习范式驱动的智能体。文章强调技术迭代的"问题驱动"特征——每个新范式都突破前代局限,同时带来新的挑战。通过解析物理符号系统假说、知识表示等核心概念,揭示智能体技术演进的内在逻辑与必然性,为理解当代智能体架构提供历史参照系。

2025-11-05 16:43:59 1308

原创 万字长文学一学 ASR&TTS 语音基础知识

语音识别系统通过采样和量化将气压变化转化为数字信号。采样率需至少为信号最高频率的2倍(奈奎斯特定理),否则会出现混叠失真。电话语音采样率为8kHz,麦克风语音为16kHz。加窗技术(如汉明窗)提取语音帧后,通过离散傅里叶变换(DFT)分析各频段能量,为后续处理提供频谱特征。这一过程涉及气压→电信号→数字信号→加窗→DFT的完整转换链,是语音识别的基础信号处理步骤。

2025-11-05 16:33:49 924

原创 DeepSeek-OCR和Glyph用视觉压缩思路对比

DeepSeek-OCR与Glyph均通过视觉压缩优化LLM长文本处理,但侧重点不同: DeepSeek-OCR专注于OCR任务,结合SAM与CLIP的视觉编码器(16倍压缩)和MoE解码器,实现高精度文本重建(10×压缩下精度97%),并探索视觉分层模拟人类记忆机制。 Glyph面向通用长文本,将文本渲染为图像供VLM处理(如24万token小说压缩至8万视觉token),通过遗传搜索优化渲染配置,在3-4倍压缩下保持主流模型精度,为千万级上下文提供可能。

2025-11-05 15:41:33 1097

原创 10分钟上手OpenAI Agents SDK

OpenAI Agents SDK 是一个轻量级 Python 包,用于构建智能体化 AI 应用。核心功能包括: 智能体配置:通过 instructions/tools/model 等参数定义 Agent 行为 会话管理:自动维护跨 Agent 的对话历史(SQLiteSession) 工具调用:支持函数工具集成(如 get_weather) 智能体转移:通过 Handoffs 实现多 Agent 协作 代码解释:内置 CodeInterpreterTool 工具 该 SDK 提供了同步/异步运行方式。

2025-10-10 16:39:24 831

原创 dots.ocr: 单一视觉-语言模型中的多语言文档布局解析

dots.ocr:高效多语言文档解析新标杆 dots.ocr是一款基于1.7B参数视觉-语言模型的统一文档解析工具,在文本、表格和阅读顺序解析上达到SOTA性能,支持多语言处理并保持高效推理速度。其创新点包括: 统一架构:单模型同时处理布局检测(支持11种元素类型)和内容识别(文本/公式/表格等),通过提示词即可切换任务 多语言优势:在低资源语言解析中显著优于传统方案。

2025-09-30 14:35:47 955

原创 MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型

MinerU2.5是一款12亿参数的视觉-语言模型,专为高效文档解析而设计。它采用两阶段策略:先进行全局布局分析,再对文本、公式和表格进行精细识别。该模型在保持高计算效率的同时,实现了布局分析、公式解析(含中英混合方程)和复杂表格处理的突破性性能。

2025-09-30 10:43:56 1700

原创 AI Agent的四象限法则:解码智能体应用的底层逻辑

AI Agent分类新框架:基于工作流和上下文确定性的智能体分类方法 摘要:本文介绍了一个基于工作流(workflow)和上下文(context)两个维度的AI Agent分类框架。根据这两个维度的确定性高低,将智能体分为四种典型场景:1)高确定性场景(如RPA自动化);2)流程固定但输入多变的语义理解场景(如客服问答);3)输入清晰但路径多样的自主规划场景(如个性化推荐);4)双重不确定的通用智能场景(如创新设计)。该框架揭示了自动化解决确定性、智能化解决不确定性的本质区别。

2025-09-25 20:17:05 614

原创 B站开源IndexTTS2,用极致表现力颠覆听觉体验

B站语音团队推出新一代语音合成模型IndexTTS2,在情感表达和时长控制方面取得突破。该模型创新性地提出兼容自回归架构的时间编码机制,首次实现AR模型的精确时长控制。通过音色与情感解耦建模,支持独立指定音色和情感参考,并引入基于文本描述的情感控制能力。实验表明,IndexTTS2在词错误率、说话人相似度和情感保真度等指标上优于当前先进模型。团队已开源相关代码和模型,推动零样本语音合成技术走向实用化。该技术已应用于B站"原声视频翻译"功能内测。

2025-09-25 20:01:24 1288

原创 通义DeepResearch论文六连发全面解读

摘要:通义深度研究智能体通过两篇论文提出创新数据合成方法。论文一提出持续预训练框架,将多源数据转为知识库,通过一阶和高阶动作合成(FAS/HAS)生成规划与推理数据,采用两阶段训练策略(32K/128K上下文)。创新点包括知识到问题的转换、无需API的规划/推理合成,以及通过备选方案增强轨迹数据。论文二WebSailor系列提出基于图的复杂问题合成方法,构建高不确定性知识图谱,通过模糊化处理生成挑战性问题(SailorFog-QA)。V2版本改进图结构,增加循环连接以更好模拟现实知识网络。

2025-09-22 14:32:32 1583

原创 深度解析通义DeepResearch:阿里开源的300亿参数深度研究智能体

通义DeepResearch的推出,不仅是阿里在大模型领域的重要布局,更代表了智能体发展的一个重要方向——从“简单问答”走向“深度研究”。它通过“全流程数据自主化”“迭代研究范式”等创新,解决了传统智能体在复杂任务中的能力短板,同时通过开源降低了行业使用门槛。未来,随着技术的迭代,它可能会在更多领域落地(如医疗研究、教育辅导),甚至成为“人人可用的私人研究助手”,让深度分析能力不再局限于专业研究者,而是普及到每个需要处理复杂信息的人。

2025-09-22 11:39:59 2267

原创 OpenAI新论文:Why Language Models Hallucinate

OpenAI论文从统计学视角分析了语言模型产生幻觉(自信输出虚假事实)的两大根源:1)预训练阶段的数据稀疏性导致对罕见事实的统计推断不可靠;2)现有评测机制过度奖励猜测行为而非诚实承认不确定性。研究发现,单纯扩大模型规模无法根本解决幻觉问题,关键在于重构评测体系,如对"我不知道"给予合理评分、惩罚盲目猜测等。论文建议在产品层面实施置信度阈值、强制证据展示等方案,通过改变激励机制使模型行为更可信。研究强调,优化评测标准比单纯追求模型规模更能有效降低幻觉率。

2025-09-06 16:14:29 1566

原创 Agent实战教程:LangGraph相关概念介绍以及快速入门

文章摘要:作者介绍了使用LangGraph框架搭建智能体(Agent)的经验,重点讲解了Langchain的ChatModel调用方式和ReAct框架。ChatModel部分展示了如何通过Langchain调用不同厂商的大模型,并以DeepSeek为例详细解析了模型返回的JSON结构。ReAct框架部分阐述了该框架如何结合推理和行动来提升语言模型性能,包括任务定义、推理轨迹生成、行动执行等步骤。文章还提供了相关官方文档链接,适合对智能体开发感兴趣的读者参考。

2025-08-25 20:24:30 859

原创 Mem0 深度解析:开源本地 AI 智能体长期记忆系统原理与实战

Mem0是一款专为AI智能体设计的开源记忆管理系统,通过结合LLM自动提取、向量存储和图数据库技术,解决了AI交互中的"遗忘"问题。该系统支持多级记忆架构,包括用户级、会话级和智能体级记忆,实现跨会话、跨应用的持久记忆管理。Mem0创新性地采用双重存储架构(向量+图数据库)和智能检索系统,提供add和search两大核心API接口,支持高效语义检索与实体关系追踪。相比OpenAI Memory,Mem0在准确率提升26%的同时降低91%延迟和90%令牌消耗。

2025-08-21 11:25:03 3288

原创 通宵刷完 GPT-OSS 技术报告:OpenAI,还是你狠

最接近 o4-mini 的开源模型维度社区体感参数量116.8 B(激活 5.1 B)20.9 B(激活 3.6 B)20 B 就能跑 16 GB 机器,真香上下文YaRN + Rotary,长度管够推理强度同上三挡可调,CoT 长度平滑提升工具浏览器 + Python + 任意函数同上官方给了参考 Harness,可插拔量化同上120 B 单卡 80 GB 就能跑协议Apache 2.0Apache 2.0商用无门槛对开发者对研究社区对行业。

2025-08-06 09:31:48 1927

原创 主流大模型推理框架全景解析:vLLM、SGLang、TensorRT-LLM、Ollama、XInference 横向对决

本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM等。vLLM通过PagedAttention和Continuous Batching技术显著提升显存利用率和吞吐量,适合高并发场景;SGLang采用RadixAttention技术优化多轮对话性能,吞吐量比vLLM提升5倍;TensorRT-LLM通过预编译和量化支持,在NVIDIA GPU上实现高效推理。这些框架各有优势,适用于不同场景,为开发者选择合适的大模型部署方案提供了重要参考。

2025-07-28 20:24:31 1438

原创 告别镜像拉取慢!CNB无痛加速方案,一键起飞

腾讯云原生构建平台CNB提供免费算力与镜像加速服务,配合"CNB镜像同步助手"Chrome插件,可便捷拉取国内外镜像。用户只需注册CNB账号、Fork镜像同步项目,即可通过浏览器插件快速同步Docker镜像到个人仓库,实现高速下载。该方案解决了海外镜像源访问慢的问题,支持一键同步nginx、tomcat等常用镜像,大幅提升开发效率。

2025-07-26 12:00:44 2266

原创 大模型架构终极横评:Llama/Qwen/DeepSeek等6大主流框架全维度技术拆解

本文对比分析了当前主流大型语言模型(LLM)的架构发展,重点关注DeepSeek V3、OLMo 2、Gemma 3等模型的创新设计。DeepSeek V3采用多头潜在注意力(MLA)和专家混合(MoE)技术,MLA通过压缩KV缓存降低内存占用,MoE通过稀疏激活提升推理效率。OLMo 2在归一化层位置和QK-范数方面做出改进。Gemma 3则引入滑动窗口注意力机制。文章指出,尽管LLM架构保持核心Transformer结构,但在位置编码、注意力机制和归一化层等细节上持续优化,这些改进共同推动模型性能提升。

2025-07-25 18:59:14 1738

原创 Qwen-MT:翻得快,译得巧

阿里云推出全新机器翻译模型Qwen-MT,基于Qwen3模型优化,支持92种语言互译,覆盖全球95%人口。该模型采用强化学习和MoE架构,兼具高质量翻译与低成本优势(每百万token仅2元),在中英、英德等多语种翻译任务中表现优异,评测显示其翻译质量与GPT-4等顶级大模型相当。Qwen-MT提供术语干预、领域提示等专业功能,适用于高并发场景,并通过API开放服务。人工测评由专业译员验证,显示其在实际应用中的卓越表现。

2025-07-25 18:50:23 2086

原创 LangChain 入门:手把手教你搭建第一个 AI Agent

基于LangChain框架开发AI Agent的核心功能与实践案例。文章首先阐述了Agent开发的三大关键能力:大模型接入、工具决策和任务管理,并对比了主流开源框架LangChain、AutoGen和Google ADK的特点。 重点分析了LangChain框架对Agent核心能力的支持:1)丰富的工具库支持多模型和数据源接入;2)嵌入预筛选+LLM决策的智能工具选择机制;3)ReAct循环实现的任务管理能力。通过一个自然语言查询SQLite数据库的实践案例,展示了如何构建具备智能推理、工具协作...

2025-07-21 10:10:58 1311

原创 破解LLM“最后一公里”:后训练技术如何突破通用模型场景局限

本文系统梳理了大型语言模型后训练技术(PoLMs)的发展脉络与应用框架。文章首先区分了预训练(PLMs)与后训练(PoLMs)的定位差异,指出PoLMs专注于将通用模型适配到具体任务。通过时间轴展现了2018-2025年技术演进:从早期的SFT、预训练到RLHF、多模态的兴起,再到当前DPO、推理和MoE的火热发展。核心内容围绕后训练的五大方面展开:微调(监督/自适应/强化学习)、对齐(人类/AI反馈、直接优化)、推理增强、效率提升及多模态集成。重点解析了RLHF的反馈机制设计、奖励模型构建等关键技术,并对

2025-07-16 22:39:21 1286

原创 芒果TV-影视语音多语种翻译赛-TOP10总结

本文介绍了影视多语言自动翻译比赛的解决方案。该赛题要求将中文影视音频实时翻译为英、马、泰三语字幕,面临语音识别(口音、背景音)、文化专有项翻译、多轮对话上下文理解等技术难点。团队采用两阶段方案:基于Qwen2.5-Omni-3B的语音识别模块(LoRA微调)和Qwen3-14B的多语言翻译模块,通过滑动窗口处理对话上下文,使用vLLM加速推理。关键创新包括:文化梗标注、多轮对话数据构造和并行推理优化,最终在A/B榜均进入Top10。

2025-07-16 20:32:15 1473

原创 WWW 2025 EReL@MIR 多模态检索挑战赛:竞赛总结

MIRC 2025 (Multimodal Information Retrieval Challenge) 是与 The Web Conference 2025 (WWW 2025) 联合举办的第一次 EReL@MIR 研讨会 中的一个重要比赛。WWW 2025 将于 2025年4月28日至5月2日 在澳大利亚悉尼举行。

2025-07-15 16:00:13 1756

原创 一网打尽:requests、aiohttp、httpx 谁才是你的真命 HTTP 库?

本文对比了Python中三个HTTP客户端库(requests、aiohttp、httpx)的性能差异。测试以发送100次POST请求为基准,结果显示:requests库在不保持连接时耗时2.7秒,保持连接后缩短至1.4秒;httpx同步模式耗时1.3秒;aiohttp异步模式最快仅0.5秒,httpx异步模式也表现优异耗时0.6秒。结论表明,对于需要高频请求的场景,异步请求方式(aiohttp和httpx)具有明显性能优势,其中aiohttp最快,而httpx兼具同步/异步两种模式,使用更为灵活。

2025-07-14 14:13:53 1352

原创 零前端?3分钟上线!用Streamlit把AI模型变「可点击」的神器

Streamlit是一个开源Python框架,无需前端知识即可快速构建数据应用。它支持丰富的数据展示形式(表格、图表、文本等)和交互组件(滑块、输入框等),通过简单Python代码即可控制应用逻辑。本文介绍了Streamlit的安装方法(pip install streamlit)和基本使用流程,并以Iris分类器为例展示了如何创建交互式机器学习应用。文章还详细讲解了Streamlit的核心API,包括数据展示(write、markdown、dataframe等)和用户输入组件,帮助开发者快速上手。

2025-07-14 13:56:21 1330

原创 「AI Agent」≠「Agentic AI」!

本文探讨了AI Agent与Agentic AI的区别与发展。AI Agent是具备工具调用能力的独立智能体,能完成特定任务(如预订机票),但仍面临推理能力不足、幻觉等问题。而Agentic AI则是由多个AI Agent组成的协同系统,通过智能协调完成复杂目标(如智能家居管理),展现集体智能优势,但也带来错误放大、通信瓶颈等新挑战。两者代表了AI从"工具"到"组织"的演进,将推动下一代AI系统向更自主、协同的方向发展。

2025-07-14 11:32:19 956

原创 2025大模型面试60题终极指南

本文梳理了大模型相关的核心概念与常见面试题,重点解析了Transformer架构、自注意力机制、分词策略等关键技术。

2025-07-14 08:56:06 1037

原创 炸裂!Kimi K2「开源核弹」:代码王者+Agent 超脑,今日上线

月之暗面发布并开源万亿参数Kimi K2模型,采用MoE架构(激活参数32B),在代码、Agent和数学推理任务中达到开源模型SOTA水平。关键技术包括MuonClip优化器提升训练效率、大规模工具使用数据合成及通用强化学习机制。模型具备128K长上下文支持和兼容OpenAI的API接口(输入/输出tokens分别4元/16元每百万)。同步开源基础版和指令微调版,在风格化写作、知识推理等场景表现优异,未来将扩展视觉理解等能力。用户可通过官网或App体验,开发者可部署开源模型或调用API服务。

2025-07-12 11:09:10 1660

原创 pip 安装加速指南:配置国内镜像源(中国科技大学、清华、阿里云等)

摘要 国内使用pip安装Python包时,默认国外PyPI源常导致下载慢、超时问题。推荐使用国内镜像源提升安装效率,如中国科技大学、清华大学等镜像。可通过临时-i参数或永久修改pip.conf/ini文件配置镜像源。Conda用户也可通过命令添加清华镜像。注意HTTPS协议、镜像同步延迟等细节。合理使用国内镜像能显著改善Python包管理体验。

2025-07-09 18:14:38 2130

原创 模型融合:协同创新的未来趋势

模型融合(Model Merging)是一种无需额外训练就能组合不同模型能力的技术。通过计算任务向量(Task Vector),即微调模型与基础模型的参数差值,可以实现不同能力的加减组合。例如将中文能力与安全对齐能力融合,或让模型忘记特定知识。该方法在大模型上效果更佳,因为参数更新更分散。未来可能形成任务向量交易市场,让用户自由组合模型能力。研究显示,当模型能力差异较大且参数更新不重叠时,融合成功率更高。这一技术为快速构建多功能模型提供了新思路。

2025-07-08 11:10:03 1253

原创 通义WebSailor开源Agent多榜夺魁,向OpenAI BrowseComp高难度基准发起挑战

阿里巴巴通义实验室 RAG 团队推出了最新研究成果 WebSailor。WebSailor 带来了完整的后训练方案来弥补这一差距,使开源模型在超复杂的信息检索任务上实现突破。通过创新的数据构造和训练方法,WebSailor 成功赋予开源 Web Agent 以超人类推理能力,在 BrowseComp 等长期未解的挑战上取得了前所未有的成绩,大幅度缩小了开源模型与顶级封闭系统之间的差距。

2025-07-08 10:57:49 1131

从对齐到统一:多模态大模型的技术演进(2021~2026)

内容概要:本文系统梳理了从2021年CLIP模型问世到2025年Qwen3-Omni实现全模态统一的多模态大模型技术演进路径,涵盖五个关键发展阶段:图文对齐(CLIP)、统一理解与生成架构(BLIP/Flamingo)、LLM+视觉的桥接范式(BLIP-2、LLaVA)、中文优化与动态分辨率(Qwen-VL系列),最终迈向音频、视频、文本全模态深度融合的Qwen3-Omni。文章深入解析各阶段代表性模型的技术架构、核心创新与局限,并介绍了主流训练框架(如LLaMA-Factory、ms-swift等)及其在多模态训练中的应用。

2026-02-02

台大李宏毅-AI Agent新课

台大李宏毅-AI Agent新课

2025-04-04

Deepseek给我们带来的创业机会

Deepseek作为前沿科技企业,为创业者带来诸多机遇。其在人工智能、大数据等领域的创新技术,可助力创业者开拓智能应用开发、数据分析服务、行业解决方案等业务。创业者可借助Deepseek技术赋能,降低研发成本,提升产品竞争力,快速切入市场,实现商业价值与技术创新的双赢。

2025-02-28

AI4SCup-LLM-Rank4 比赛训练&推理代码

AI4SCup-LLM-Rank4 比赛训练&推理代码

2025-02-28

2024-KDD获奖代码

2024-KDD获奖代码

2025-02-28

AIGC发展研究资料2.0-清华大学

AIGC发展研究资料2.0-清华大学

2025-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除