DeepSeek前线:解密前沿LLM技术+小白入门
文章平均质量分 92
我们一起剖析DeepSeek系列大模型架构设计和训练细节,揭秘其高性能计算与动态路由系统的独特优势,掌握前沿技术脉络。与此同时,实战赋能,提供各种行业场景的应用案例,有Prompt Engineering,模型垂域适配,助你轻松上手。
kakaZhui
AI算法专家,精通大模型算法以及Agent等
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Step-Audio-R1.5:从单纯ASR TTS来到语音原生推理
在传统的 RLVR 训练框架下,模型被严格优化以提取连续、丰富的听觉上下文,并将其映射为孤立的、可验证的文本标签(例如一个类别、一个数字或一个简短的事实字符串)。为了使模型跳出“可验证奖励陷阱”,Step-Audio-R1.5 放弃了单纯依赖 RLVR 的路径,转而设计了一个精密的。多轮语音交互的优化目标是高度异构的:有些目标有明确的标准(如格式),而有些目标(如语气自然度、共情能力)是高度主观的。RLVR 通过二进制的、可自动验证的正确性信号来强化模型生成的长推理链,巧妙地避开了训练复杂奖励模型的开销。原创 2026-05-02 23:11:49 · 43 阅读 · 0 评论 -
SkillClaw:让大模型 Agent skill在多用户生态中实现群体进化的框架
随着大模型应用步入深水区,基于 LLM 的智能体(Agent)正从单一的“沙盒玩具”转变为处理真实世界复杂任务的生产力工具。然而,现有的 Agent 系统通常面临一个致命瓶颈——部署即固化。为了解决这一问题,最近有一篇新论文**《SkillClaw: Let Skills Evolve Collectively with Agentic Evolver》**提出了一种多用户生态 Agent 群体进化框架。原创 2026-04-11 23:06:20 · 122 阅读 · 0 评论 -
重构大模型长链推理SFT的泛化机制:Rethinking Generalization in Reasoning SFT
许多研究指出,使用长逻辑链进行 SFT 虽然能提升同分布的数学成绩,但在跨领域(Out-of-domain, OOD)任务上表现孱弱,甚至会引发通用能力的灾难性遗忘(Catastrophic Forgetting)。高质量的 CoT 数据,其价值在于教会模型“如何思考(How to think)”,而不是“思考什么(What to think)”。许多被报告的“SFT 泛化失败”,实际上是实验设置缺陷(如:训练轮数不足、数据质量低劣、基座模型容量太小)导致的伪像(Artifacts)。原创 2026-04-11 22:40:42 · 235 阅读 · 0 评论 -
Apple LLM自蒸馏新论文:Simple Self-Distillation
概率分布呈现出**“尖峰(Spiky)”**特征:一个或少数几个正确的 Token 占据了绝大部分概率质量,而其余 Token 形成了一条长长的“干扰尾巴(Distractor Tail)”。通过 SSD,模型在物理层面被重塑:在需要精确的地方变得像剃刀一样锋利,在需要发散的地方保留了开阔的视野。在当前的大模型(LLM)研发中,针对复杂推理和代码生成任务,学术界和工业界普遍陷入了对**“高质量对齐数据”在这里,概率分布是**“平缓的(Flat)”**,散布在多个可行的分支(Branches)上。原创 2026-04-06 09:38:44 · 70 阅读 · 0 评论 -
【读论文】双工语音交互中的轮次检测方案Easy Turn
在人机交互的演进史中,语音对话系统(Spoken Dialogue Systems, SDS)正经历从“半双工(对讲机模式)”向“全双工(自然对话模式)”的深刻变革。在 Easy Turn 提出之前,构建一个具备 Turn-Taking 能力的对话系统,通常需要面对“精度、速度、数据开源”的“不可能三角”。——系统必须精准判断用户是已经说完(该机器回答了)、还在思考(机器需要继续倾听)、给出了简短附和(机器应继续说),还是要求机器闭嘴。(词错误率为0)的样本才被采纳,确保了音字对齐的绝对完美。原创 2026-03-24 23:08:36 · 202 阅读 · 0 评论 -
小龙虾升级MetaClaw:在真实世界中的持续进化的Agent
随着大语言模型(LLM)的飞速发展,基于 LLM 的智能体(Agents)已经能够处理复杂的多步任务、调用外部工具并操控计算机(如 OpenClaw、SWE-agent 等)。从算法上看,它优雅地解决了 Continual RL 中的“陈旧奖励”难题,用严格的数据隔离版本控制(Skill Generation Versioning),实现了外挂记忆与内化参数的同步进化。一个典型的场景是:用户前一周可能在使用 Agent 处理繁琐的本地文件系统操作,下一周的需求可能就变成了协调多个即时通讯工具的工作流。原创 2026-03-21 20:45:58 · 94 阅读 · 0 评论 -
TTS新高度:Fish Audio S2
由于 Dual-AR 的 Slow AR 本质上就是一个文本 LLM(Qwen3-4B),它的自回归计算完全可以利用 SGLang 的 Continuous Batching, Paged KV Cache 和 CUDA Graph。在生成式 AI 时代,高质量的文本转语音(TTS)技术已经从传统的“机械朗读”演变为“具备情感和指令遵循能力的语音交互”。这保证了模型在预训练时学到的东西,正是 RL 阶段要求它优化的东西,堪称教科书级的工程设计。的推理优化,将端到端流式 TTS 的 RTF 压榨到了惊人的。原创 2026-03-15 20:37:42 · 238 阅读 · 0 评论 -
【读论文】小模型Agent调用工具能力如何增强--微软研究院的ATLAS架构
对于前沿千亿/万亿参数大模型,它们依赖庞大的上下文窗口和极致的参数规模来“生吞”所有工具的 Schema(描述文件),并维持长周期的多轮对话状态。框架,它给出了一套极其优雅的工程与算法解法: 通过“按需加载上下文”、“代码级状态编排”以及“基于量规(Rubric)的强化微调”,ATLAS 使得一个仅。系统会拉取 MCP Server 的 JSON Schema,通过一次离线的 LLM 脚本,将其映射为标准的 Python 函数。当 Agent 生成的 Python 代码报错时,如果是普通的。原创 2026-03-11 20:47:13 · 72 阅读 · 0 评论 -
AGENTVISTA:面向多模态Agent的新benchmark
AGENTVISTA 定义了“视觉驱动的长程混合工具使用(Vision-centric Long-horizon Hybrid Tool Use)”这一新范式。视觉细节极度丰富:需要从杂乱的室内照片中识别特定的地板纹理、门框位置。混合工具链:需要交替使用(找同款)、Web Search(查参数)、(计算面积和价格)。验证性(Verifiability):答案必须是客观的、唯一的(如具体的金额或型号),而非开放式生成。这是一个典型的 ReAct 风格的工具集,涵盖了感知、检索和计算。工具名称。原创 2026-03-08 22:30:43 · 64 阅读 · 0 评论 -
关于统一多模态模型的“理解-生成”悖论--UniG2U-Bench来解决
G2U(Generation Helps Understanding)并非指简单的多任务学习,而是指在推理过程中,模型通过生成中间视觉产物(Visual Artifact)来辅助最终的判别或问答。形式化地,对于一个输入元组xVTQxVTQ(视觉上下文、文本上下文、查询),目标是输出答案yyy。纯理解模型(Base VLM):直接映射yAnsx∅yAnsx∅。统一模型(UMM):可以引入中间生成步骤。原创 2026-03-05 22:46:15 · 60 阅读 · 0 评论 -
Qwen到Qwen3.5实现能力跃迁了吗
在 LLM 的发展史上,Qwen系列的迭代史就是一部**从“堆参数”到“提纯智能”**的教科书级演进史。等经典 Dense 尺寸为切面,横向拉通 Qwen-1、1.5、2、2.5 及 3.x 系列,深度剖析其在结构设计、训练方法及数据构成上的质变,并反向论述 Scaling Law 在新范式下的修正公式。Qwen 系列的架构一直遵循“实用主义”,在 Transformer Decoder-only 的基座上进行了极其实用的微调。数据量的线性增长,带来了性能的指数级飞跃。到了 Qwen-2.5/3 时代,原创 2026-03-03 22:53:03 · 78 阅读 · 0 评论 -
为Agent应用而生的Qwen3.5
这类说明非常“工程化”。这表明 Qwen3.5 不只是“会工具调用”,而是已经围绕 Agent 的几个核心场景(搜索、工具编排、代码执行)形成了相对完整的模型+生态组合。这一点很关键:很多模型“会调用工具”,但不一定适合长期、复杂、可恢复的 Agent 工作流。换句话说,Qwen3.5 不是“先做一个大模型,再顺便拿去做 Agent”,而是已经在结构、训练和运行时层面为 Agent 做了适配。这点比单纯分数更有参考价值,因为生产系统里 Agent 成败往往决定于“上下文治理”,不是“单轮回答能力”。原创 2026-02-21 10:34:41 · 442 阅读 · 0 评论 -
Qwen3.5:原生多模态智能体
今天一起看下最新发布的Qwen3.5 系列模型,旗舰模型 Qwen3.5-397B-A17B 以 397B 总参数、仅 17B 激活参数的超稀疏 MoE 架构,在推理、编码、多模态理解与智能体任务上达到sota,同时将推理成本降低约 60%。我们从架构设计、注意力机制创新、训练流程、强化学习算法、推理优化及工程实现等维度,对 Qwen3.5 的核心技术进行分析。原创 2026-02-21 10:09:15 · 591 阅读 · 0 评论 -
小钢炮MiniCPM-SALA 混合注意力架构与低成本训练范式
在 MMLU, HumanEval, GSM8K 等标准榜单上,MiniCPM-SALA 与同等规模的 Full Attention 模型(如 Qwen2.5-7B, MiniCPM-4.1)持平甚至略优。,在保留全注意力模型(Full Attention)通用能力的同时,将推理速度提升 3.5 倍,并将显存占用压缩至能在单张 A6000D 上跑通 1M Context。在 SALA 中,Linear 层通过维护一个固定大小的状态。MiniCPM-SALA 的成功不仅是一个架构的创新,更是一种。原创 2026-02-17 16:41:58 · 71 阅读 · 0 评论 -
【读论文】Agent复杂任务大开销的解法:Unsupervised Hierarchical Skill Discovery
在强化学习(RL)领域,尤其是面对 Minecraft 或 Craftax 这样高维、长视距(Long-Horizon)的任务时,智能体往往面临着巨大的探索难题。人类解决复杂问题时,不会思考每一毫秒肌肉如何收缩(Primitive Actions),而是基于“收集木头”、“制作镐”、“挖掘石头”这样的**分层技能(Hierarchical Skills)**进行规划。语法归纳(Grammar Induction)**相结合,从未标注的演示轨迹中提取出具有语义意义的多层级技能结构。HiSD 采用了基于。原创 2026-02-14 16:55:36 · 106 阅读 · 0 评论 -
【读代码】GLM-OCR 核心架构与工程分析
在传统的 OCR(光学字符识别)工程链路中,我们习惯于“检测(Detection)- 识别(Recognition)- 版面分析(Layout Analysis)”的串行流水线。GLM-OCR 使用了一个两层的 MLP(多层感知机)作为 Projector,甚至包含了一些卷积层(Conv2d)用于 Token 的下采样(Pooling)。GLM-OCR 沿用了 GLM-4V 的基础架构,但在视觉编码器与语言模型的连接层做了针对性优化,以适应细粒度的文档特征。今天一起看下智谱的OCR模型GLM-OCR。原创 2026-02-10 13:03:31 · 80 阅读 · 0 评论 -
【读论文】端侧MLLMs效率大提升:MiniCPM-V 4.5
在 Post-Training 阶段,MiniCPM-V 4.5 并没有盲目追求 OpenAI o1 式的“长思维链(Long CoT)”,而是选择了一条**“混合推理(Hybrid Reasoning)”**的路线。的模型,它在 OpenCompass 等权威榜单上超越了 GPT-4o-latest 和 Qwen2.5-VL-72B,同时在视频理解任务上将推理时间压缩至 SOTA 模型的。,通过在图像上施加不同程度的“腐蚀(Corruption)”,强迫模型在“看清字”和“猜出意”之间动态切换。原创 2026-02-07 23:19:38 · 91 阅读 · 0 评论 -
英伟达PersonaPlex:端到端语音大模型如何做到音色与角色统一
在语音 AI 的进化树上,我们经历了从级联系统(ASR-LLM-TTS)到端到端语音模型的跨越。然而,现有的全双工模型虽然解决了实时打断和自然交互的延迟问题,却陷入了“身份固化”的困境——无法灵活定制说话人的音色与角色设定。原创 2026-02-04 10:51:45 · 116 阅读 · 0 评论 -
Step-Audio-R1:语音模态的Scaling Law
在文本(LLM)和视觉(VLM)领域,OpenAI o1 系列模型的出现确立了一个核心范式:Test-Time Compute Scaling(测试时计算扩展)。即通过更长的思维链(Chain-of-Thought, CoT)进行深思熟虑,可以显著提升模型处理复杂逻辑任务的能力。然而,这一“Scaling Law”在音频领域却长期失效,甚至出现了**“倒挂”现象**。现有的音频大模型(Audio LLMs)往往在没有推理过程直接回答时表现更好,一旦引入长思维链,性能反而下降。Step-Audio-R1 的发原创 2026-02-02 22:46:34 · 67 阅读 · 0 评论 -
【读论文】LongEmotion: LLM长文本+情感智能
大型语言模型(LLM)在情感智能(EI)和长文本处理领域取得了显著进展,但在“长文本语境下的情感处理”这一交叉点上,现有的基准测试仍存在空白。真实的心理咨询、情感陪伴场景往往伴随着漫长、复杂且充满噪音的对话流。港大、城市大学等机构联合推出的基准,填补了这一空白。该基准不仅包含六大任务(平均上下文长度达 15k tokens),更提出了框架——一种结合 RAG 与多智能体协作的新架构,旨在解决长文本下的情感推理难题。本文将从问题背景、基准设计、CoEM 框架实现及实验分析四个维度尝试进行拆解。原创 2026-01-23 13:17:53 · 59 阅读 · 0 评论 -
【论文解读】Engram:DeepSeek V4要来了吗?
在 Mixture-of-Experts (MoE) 成功通过“条件计算”解决模型容量与推理成本的矛盾后,DeepSeek-AI 再次抛出重磅炸弹——Engram。论文背景是Transformer 长期以来被迫用昂贵的计算来“模拟”记忆检索。Engram 通过引入**条件记忆(Conditional Memory)**机制,将经典的 N-gram 思想现代化,以O1O(1)O1的查表代价实现了静态知识的极速调用。原创 2026-01-16 12:39:14 · 256 阅读 · 0 评论 -
字节新论文:通过Context-Folding记忆折叠实现复杂Agent
今天一起看下字节新出论文《Scaling Long-Horizon LLM Agent via Context-Folding》。在构建长程(Long-Horizon)Agent 时,上下文窗口的线性增长与注意力的二次方开销是制约模型推理能力与运行效率的核心瓶颈。不同于传统的 RAG 或基于摘要的被动压缩,字节提出的Context-Folding 赋予了 Agent主动管理记忆的能力:通过branch和return。原创 2025-12-16 21:09:36 · 288 阅读 · 0 评论 -
生产级 Agent 的极简架构: MiniMax Mini-Agent
在 Agent 框架百花齐放的今天,一起来看下MiniMax 发布的开源项目Mini-Agent(https://github.com/MiniMax-AI/Mini-Agent)),他提供了一个独特的视角。它不仅仅是自家 M2 模型的展示 Demo,更是一套遵循“Interleaved Thinking”(交错思维)范式的参考架构。本文将从架构设计、核心代码逻辑、Context 管理策略及 MCP 协议集成四个维度,深度剖析这个轻量级但生产力极强的 Agent 框架。原创 2025-12-10 13:00:21 · 440 阅读 · 0 评论 -
【读代码】构建有状态的智能体:从MemGPT架构分析到 LangGraph实践
这是最关键的一步。我们需要将从常规的消息流中剥离出来,使其成为一个独立的、持久的状态对象。# 定义核心内存结构persona: str # 机器人的自我设定human: str # 机器人对用户的认知# 定义 Agent 全局状态# 消息历史:使用 operator.add 实现追加模式# 核心内存:不使用 add,而是由 ToolNode 进行全量替换/更新# 这模拟了 RAM 的读写特性传统的工具是 Read-only 的(如搜索 Google)。原创 2025-12-01 22:45:47 · 288 阅读 · 0 评论 -
【Agent实战】从 Anthropic 多智能体实践总结到类OpenManus应用实现(资源中附完整代码)
近期关注Anthropic 分享的其内部用于复杂任务处理的“多智能体研究系统”(https://www.anthropic.com/engineering/multi-agent-research-system),通过并行化、分工化和迭代式的设计,显著提升了 LLM 解决复杂问题的广度与深度。本文将尝试分析Anthropic 的架构理念,并以之前爆火的Manus为产品对标,使用 Python 和LangGraph框架,从零构建一个具备中文意图理解、英文广度搜索、深度中文报告生成。原创 2025-11-27 21:52:41 · 127 阅读 · 0 评论 -
【实战总结】Agent 应用中的高级记忆管理方案思考
在从早期的 Chatbot 向自主 Agent(Autonomous Agent)演进的过程中,"记忆(Memory)"的定义发生了质的改变。对于工业级 Agent 而言,记忆不再仅仅是滑动窗口内的几轮对话历史,而是一套涵盖了显性工作状态隐性用户画像以及语义知识沉淀的复杂代谢系统。本文将深入探讨工业界在构建 Agent 记忆系统时面临的核心挑战,尝试一种基于“双轨制记忆代谢(Dual-Track Memory Metabolism)”的通用架构,并基于LangGraph和Vector DB。原创 2025-11-27 21:14:42 · 105 阅读 · 0 评论 -
具备强推理能力的1.5B大模型,来自新浪的VibeThinker
当前“模型越大,能力越强”成为行业共识,但是也有例外,今天一起看下新浪微博AI团队发布的VibeThinker-1.5B模型,以仅15亿的参数量,在多个高难度数学和代码基准测试中,其性能不仅媲美甚至超越了体量数百倍于它的巨型模型(如DeepSeek R1 671B)。这背后并非简单的调参或数据堆砌,而是一套名为“频谱-信号原理”(Spectrum-to-Signal Principle, SSP)的创新后训练(Post-training)的独特设计。原创 2025-11-26 22:53:08 · 163 阅读 · 0 评论 -
【读代码】最新端侧TTS模型NeuTTS-Air
NeuTTS Air (https://github.com/neuphonic/neutts-air)是一个面向“实时、可部署到设备”的 TTS 解决方案,其核心是:使用一个小型 LLM(0.5B backbone,如 Qwen 0.5B / Qwen2.5 0.5B)负责将文本与语音特征(以 token 化的 codec codes)进行序列生成,再通过高效的神经音频 codec(NeuCodec)将离散 code 解码为波形。原创 2025-11-16 23:06:56 · 517 阅读 · 0 评论 -
Kimi K2 Thinking:兼顾Agent和推理的六边形战士
Moonshot AI(月之暗面)近期发布技惊四座的Kimi K2 Thinking模型,并非传统意义上的大语言模型(LLM)的简单升级,而是一次深刻的范式转换——从“生成答案”的语言模型,演进为“解决问题”的思维代理(Thinking Agent)。本文依据官方发布内容,深入剖析Kimi K2 Thinking的设计哲学、核心能力、工程实现逻辑,并探讨其在长程规划、适应性工具调用等方面的创新价值,揭示其如何通过架构与工程的协同,实现复杂任务处理能力的飞跃。原创 2025-11-14 22:08:11 · 430 阅读 · 0 评论 -
【读论文】基于LLM增强的全双工对话
当前的语音助手,尽管功能日益强大,但其交互模式大多仍停留在“对讲机”式的半双工(half-duplex)阶段:用户说,系统听;系统说,用户等。这种模式割裂了对话的连续性,导致了延迟和不自然的体验。为了打破这一瓶颈,实现真正意义上的全双工(full-duplex)——即系统能够同时“听、说、想”——是下一代口语对话系统(Spoken Dialogue Systems, SDS)的关键。原创 2025-11-13 22:13:51 · 275 阅读 · 0 评论 -
PaddleOCR-VL对标DeepSeek-OCR?
PaddleOCR-VL的价值:其最大的价值在于提供了一个高度实用和可靠的解决方案。双阶段架构虽然看起来比端到端模型“步骤更多”,但在工程上却更加稳健。它允许对布局分析和内容识别两个环节分别进行优化和迭代,降低了调试和维护的复杂度。对于需要处理大量格式复杂、语言多样的文档的生产环境而言,PaddleOCR-VL的稳定性和高效率使其成为一个极具吸引力的选择。DeepSeek-OCR的价值:DeepSeek-OCR的价值在于其前瞻性的算法探索。原创 2025-10-30 16:56:37 · 288 阅读 · 0 评论 -
微软新模型UserLM:如何为AI助手打造一个“真实世界”模拟器
传统助手LM的训练模型学习在给定用户输入和历史对话的情况下,生成助手的下一句话。UserLM的训练“翻转”了条件和目标!模型学习在给定助手回复、历史对话和用户意图(intent)的情况下,生成用户的下一句话。微软研究院的这篇论文,其价值远不止于发布了一个新模型。它从根本上挑战了当前LLM评估领域一个被广泛采用但存在严重缺陷的方法,并提供了一个严谨、创新且有效的解决方案。“提示助手扮演用户”的不可靠性,并从模型内在分布的角度阐明了其原因。开创性地提出了UserLM这一新物种。原创 2025-10-12 22:23:18 · 385 阅读 · 0 评论 -
RAG创新方案支REFRAG
检索增强生成(RAG)已成为提升大型语言模型(LLM)回答问题时效性和准确性的关键技术。。将成千上万个token组成的上下文送入LLM进行预填充(prefill),不仅计算量巨大,导致**首token生成时间(Time-To-First-Token, TTFT)**急剧增加,还会挤占宝贵的KV Cache内存,降低系统的整体吞吐量。最近来自Meta 提出了,一个专为RAG应用量身定制的、旨在的创新框架。它并非对LLM架构进行大刀阔斧的改造,而是通过一种巧妙的**“上下文压缩”原创 2025-10-08 22:54:43 · 293 阅读 · 0 评论 -
【Qwen-Image技术报告】兼顾图像生成和文字渲染
在文生图(Text-to-Image)的“百模大战”中,生成照片般逼真的图像、模仿各种艺术风格似乎已成为标配。然而,当用户提出更具挑战性的要求——比如“在图片中生成一段多行、语义连贯的中文对联”,或者“将图中人物的姿势从坐着改成站着,并保持其衣物和背景不变”——许多顶尖模型便会暴露出它们的短板。和,正是当前图像生成模型面临的两大核心挑战。开源狂魔阿里最近又更新了,通过,旨在打造一个既擅长通用图像生成,又能在文本渲染和图像编辑方面达到SOTA(State-of-the-Art)水平的基础模型。原创 2025-10-02 19:09:23 · 460 阅读 · 0 评论 -
阿里pdf解析方案Logics-Parsing如何用RL攻克复杂文档解析
论文引用了一项重要研究[4]SFT memorizes and RL generalizes (SFT负责记忆,RL负责泛化)。SFT阶段: 就像一个学生在大量做题,通过模仿标准答案(next-token prediction),记忆下各种内容(文本、公式、表格)的正确HTML格式和基本解析模式。这个阶段的目标是让模型的输出在格式上稳定,建立一个坚实的基础。RL阶段: 像一个学生在进行更高阶的专题训练。在已经掌握了基本格式后,通过一个“教练”(奖励函数)的直接反馈,学习更复杂的、难以通过简单模仿学会的。原创 2025-10-02 15:57:22 · 592 阅读 · 0 评论 -
解读DeepSeek新模型DeepSeek*-V3.2-Exp
闪电索引器像一个“海选评委”,快速地对所有候选者(历史token)进行粗略打分;Top-k选择器则根据这个分数,选出少数优胜者进入“决赛”——即真正昂贵的主注意力计算。原创 2025-09-29 23:05:45 · 395 阅读 · 0 评论 -
阿里新开源Qwen3-Omni技术解析
在多模态大模型(MLLM)的演进历程中,一个长期存在的“魔咒”是。我们常常看到,一个模型在增强了视觉理解能力后,其纯文本推理能力可能会有所下降;或者,一个强大的音文模型,在图像处理上却表现平平。如何构建一个真正的“全能选手”——一个在模态(文本、图像、音频、视频)上都能达到与其同尺寸的性能,同时还能展现出强大的的统一模型?这正是AI领域追求的“圣杯”之一。最近阿里巴巴通义千问团队推出的就是一次对的成功实践。它通过在预训练早期精心设计的,完全可以打造出一个的全能多模态模型。Qwen3-Omni,从其核心的。原创 2025-09-25 23:02:36 · 601 阅读 · 0 评论 -
新一代基于MLLM的数字人技术:Kling-Avatar
数字人技术正以前所未有的速度模糊着虚拟与现实的边界。从虚拟主播到AI数字员工,我们对数字人的期望已不再是简单的“对口型”,而是希望它们能像真人一样,理解复杂的指令,展现丰富的,做出自然的,并保持长久的。然而,现有的音频驱动(audio-driven)视频生成技术,往往陷入一个“只见树木,不见森林”的困境:它们擅长追踪音频的低级声学特征来实现精准的口型同步,却难以理解多模态指令背后的。在此背景下,最近快手可灵团队推出的,为我们展示了一条通往数字人生成的革命性路径。原创 2025-09-21 22:15:30 · 370 阅读 · 0 评论 -
【读论文】面向工业的ASR语音大模型
以及与。这股浪潮催生了如Whisper、Seed-ASR等一系列强大的模型,它们在公开基准测试上屡创佳绩。然而,一个严峻的现实是:在标准测试集上取得高分,不等于能在真实工业应用中稳定发挥。背景噪声、口音、中英文夹杂(Code-switching)、领域特定术语(热词)等挑战,常常让那些在基准上表现优异的模型“原形毕露”。阿里巴巴通义实验室最近推出的,据传不仅是一个追逐SOTA(State-of-the-Art)的LLM-based ASR模型,更是一个**“从生产中来,到生产中去”原创 2025-09-20 23:56:26 · 274 阅读 · 0 评论 -
【Agent博客分享】从多Agent问题到新的上下文工程方法
在构建大型语言模型(LLM)智能体的浪潮中,一个极具诱惑力的架构设计————正变得越来越流行。像AutoGen和这样的框架,都在积极推广一种理念:将一个复杂的任务分解,交给多个专门的、并行的“子智能体”去处理,最后再将结果汇总。这种模仿人类团队协作的模式,在理论上似乎能带来更高的效率和模块化。然而,来自。原创 2025-09-18 23:06:10 · 153 阅读 · 0 评论
分享