自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(767)
  • 收藏
  • 关注

原创 AI智能体终极记忆方案!Graphiti教程从零到精通(建议收藏),一篇就够了!

实时将文本或结构化数据转化为“知识片段”(Episode)自动提取实体与关系,构建语义网络支持超低延迟的混合检索(语义关键词图路径精确追踪事件发生时间和被记录的时间(双时间维度)它不是传统的知识图谱工具,也不是简单的向量数据库,而是为 AI Agent 的大脑量身打造的记忆系统。然后告诉 Graphiti:“以后看到类似结构,就按这个模型提取!这样就能构建出高度定制化的专业知识图谱。简化复杂度:将复杂的图谱构建过程抽象成简单的 API 调用,开发者可以专注于业务逻辑。

2026-01-20 21:18:26 611

原创 Mac上跑DeepSeek-OCR,速度与效果都不错

文章介绍了mlx-vlm对DeepSeek-OCR的支持及使用体验,包括安装步骤、命令参数设置,展示了在M1 Ultra芯片上每秒280 tokens的高效OCR识别结果,证明其作为生产力解决方案的可行性,同时提及Minimax M2模型更新需mac集群部署的信息。Prince Canuma终于搞定了mlx-vlm对DeepSeek-OCR的支持。Hugging-Face上MLX社区也放出了转换后的权重文件。试一下很容易。当然,可以用任何合适的conda虚拟环境。我给了一张以前生成的一页纸AI报告。

2026-01-19 11:56:15 590

原创 LLMs、RAG、AI Agent三个到底什么区别?

未来不在于选择其一。而在于将三者结合起来进行架构设计。用于思考的 LLMs。用于认知的 RAG。用于执行的Agent。由此才能够构建出AI智能时代。

2026-01-19 11:49:08 615

原创 Agent智能体教程(超全干货)131篇论文+321个案例,收藏这一篇就够了!

本文系统梳理Agent领域发展路径,整理131篇前沿论文与谷歌321个落地案例及代码,覆盖入门到应用全流程。详细解析单智能体、多智能体、大模型智能体三大核心系统形态,以及大模型智能体与图技术融合等创新方向,为研究者提供从基础理论到技术实践的全链路指导,助力快速入门并开展高质量论文写作。当前正是Agent发展的黄金时期,对于想要在该领域发论文的同学来说,掌握其高效的学习路径、深入了解Agent的核心系统形态/技术融合创新至关重要。

2026-01-16 16:13:06 663

原创 AI大模型工程架构全解析:从零基础入门到实战精通,一篇就够了!

文章揭示了AI智能体落地的真相:90%工作是工程架构设计,仅10%涉及大模型本身。详细拆解了智能体落地的14个层次,包括算力、基础设施、数据库、ETL、基础模型等,强调企业需全链路打磨而非单点突破。大模型虽是点睛之笔,但缺乏前期工程支撑,智能体难以真正落地成功。越来越多的企业正在尝试把 AI 智能体真正落地,我们会发现一个有趣的规律:90% 的工作其实是工程架构设计,只有 10% 才是大模型本身的发挥。很多团队在最初做 PoC 时信心满满,以为只要把大模型接上 API,就能跑起来。

2026-01-16 14:05:14 680

原创 国产AI大模型TOP50排行榜!最强的是这两个!

还记得2022年11月30日Chat-GPT3.5发布吗?短短5天的时间,其用户量就飞速突破了100万。时至今日,从第三方数据显示,2025年12月统计的月活跃人数达到了惊人的9.1亿。从Chat-GPT刚开始的爆发式传递增长,也顺带燃起了全世界人们对AI追求的热情,更加速了国产AI大模型的飞速发展!随着近几年AI大模型的不断发展, 我们国内的大模型开发公司或机构也犹如雨后春笋般增长。尽管存在巨大的市场泡沫和过剩,但也掩盖不了各大公司或机构对大模型开发的狂热追求。因为大家都知道,下一个风口就是AI大模型。

2026-01-14 11:22:23 1376

原创 关于智能体(AI Agent)搭建,Dify、n8n、Coze 超详细的总结!

Dify 是一个开源的大语言模型(LLM)应用开发平台,融合了后端即服务(BaaS) 和 LLMOps 理念,为从原型设计到生产部署提供全流程支持,如图5.15所示。它采用分层模块化架构,分为数据层、开发层、编排层和基础层,各层解耦便于扩展。Dify 对模型高度中立且兼容性强:无论开源或商业模型,用户都可通过简单配置将其接入,并通过统一接口调用其推理能力。其内置支持对数百种开源或专有 LLM 的集成,涵盖 GPT、Deepseek、Llama等模型,以及任何兼容 OpenAI API 的模型。

2026-01-14 10:57:31 749

原创 全面解析Agent Engineering的10大工工程

文章介绍智能体工程这一新兴学科,解决AI智能体从Demo到生产的工程挑战,包括10大工程维度:交互、模型、推理核心、上下文、记忆、知识、集成、可观测性、安全和治理工程。随着Agent应用走向真实业务,工程层面的挑战日益重要,智能体工程将成为2026年热点,决定Agent能否进入生产环境并实现规模化。技术层面的突破让AI智能体(Agent)成为当前绝对的AI热点。

2026-01-09 16:11:15 906

原创 2025年RAG已死?2026年做Agentic和上下文工程

2025年即将过去,作为一名深耕RAG技术的算法工程师,我想和大家聊聊这一年RAG技术的真实状态——不是那些震惊体标题下的"RAG已死",也不是各种PPT里的宏大叙事,而是我在实际落地中观察到的技术演进、踩过的坑,以及对2026年的真实判断。技术本身没有对错,关键在于是否用对了地方。下期分享: 7 种必须了解的企业落地RAG 架构回看这一年,RAG经历了从狂热到冷静,技术本身在成熟,但大家的心态也在变化。基础框架会更加稳定- 淘汰期已过,剩下的都是精品垂直应用会涌现。

2026-01-09 11:13:45 990

原创 Manus联合创始人张涛:智能体Agent的终极形态是什么?

演讲开始,张涛直击当前市场的一大乱象,他说,2025年几乎所有人都在谈论“智能体”,但这个词背后充满了误解,很多服务仅在聊天机器人中加入一些系统提示(System Prompt),比如“你现在是一个法律代理”或“你是一个金融代理”,然后便宣称自己提供了智能体服务。那么,究竟如何让一个真正的“智能体”(AI Agent)与众不同?张涛的答案只有一个词:自主性(Agency)。他说:“一个真正的智能体,必须具备独立思考、独立行动、独立完成任务的能力,而不是仅仅被我们人类的指令所触发。他做了一个对比。

2026-01-06 14:04:02 944

原创 大模型RAG技术详解:从零基础入门到精通,一篇搞定所有知识点!

本文系统详解了大模型RAG技术,从基本概念到实践应用,全面覆盖RAG的核心流程、分块策略、检索优化、提示工程及效果评估。通过解决大模型的领域知识缺乏、幻觉问题等局限,RAG实现了知识的实时更新与安全可控。文章提供多种分块策略和检索优化方法,助力开发者构建高效可靠的RAG系统,是学习大模型应用开发的实用指南。年初给自己定了个小目标:系统学一遍大模型应用开发相关的东西,重点放在 MCP、RAG 和 Agent 上。这篇文章就是我在学习 RAG 过程中的一些整理和思考,也当作发出来和大家一起交流。

2026-01-06 11:56:17 443

原创 检索增强生成(RAG)架构大全(非常详细)从入门到精通,一篇就够了,建议收藏!

Naive RAG 是最基础的检索增强生成架构,采用“索引-检索-生成”的经典流程。

2025-12-31 11:37:51 1225

原创 基于LangChain1.0的人机交互式大模型调用方法

LangChain 是一款开源框架,内置智能体架构,且可与任意模型或工具集成。2025年10月23日发布的LangChain1.0是一个非常大的革新,比如create_agent可以方面的创建ReAct模式的智能体,中间件的推出可以实现人机交互、动态系统提示词、动态注入上下文等等,通过向工作流中预埋中间件,能够实现工作流的高效拓展和可定制化。本文主要将注意力放在人机交互上。人机交互是ReAct模式智能体的一大特点。01人机交互的定义与实现。

2025-12-31 10:51:52 787

原创 AI实战反思:Workflow的确定性与Agent的创造

Workflow 和 Agent 的区别是什么呢?是自由度与工具性的抉择。其本质也可以理解成是路径之争,是上下限之争Workflow 下限高,上限低(受限于规则穷举)Agent 下限低(容易乱),上限高(潜力无限)或者你可以问自己:如果企业的 AI 产品以Agent为主,以目前的技术迭代速度,其能力很容易随着llm升级就被超越了,那产品是不是就没有价值了?如果产品做得太复杂,做了很多固定工作流,维护成本太高,是不是又没有商业化价值?产品决策之初,其技术路线上的沉没成本就已经很高了。

2025-12-29 15:28:31 813

原创 Agent全面爆发!一文搞懂背后的核心范式ReAct!

ReAct是一种智能体架构范式,通过"推理-行动-观察"(TAO)闭环机制,使语言模型能够与外部工具交互完成复杂任务。它破解了传统LLM的"事实幻觉"、"策略僵化"和"决策不可解释"等难题,具备显式推理轨迹、外部环境锚定和少量样本泛化等核心特征。ReAct采用三层模块化架构,已在知识问答、智能规划、客服咨询和机器人控制等领域广泛应用,相比传统方法在推理与行动协同、幻觉抑制和场景适应性上具有显著优势。👉目录1 什么是ReAct?2 核心思想与设计理念3 ReAct工作原理4 ReAct技术架构。

2025-12-29 15:14:34 798

原创 基于LangGraph的多Agent安全运营中心CLI实现

本文介绍了一个基于终端的多智能体安全运营中心自动化分析助手系统,通过5个专用智能体实现了威胁指标提取、VirusTotal情报富化、MITRE ATT&CK映射、CVE检索、数字取证与事件响应规划及报告生成等功能。系统采用LangGraph进行多智能体编排,提供完整的安全事件分析流程,适合作为SOC项目原型和学习材料,所有报告可持久化保存。

2025-12-29 11:00:55 854

原创 深入 AI Agent 大脑:ReAct 推理循环与工具调用机制完全解析(含完整源码实现)

给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

2025-12-27 11:59:43 830

原创 这是一份超级全面的AI开源项目汇总!(附学习资料)

文章介绍了一个全面的AI开源学习项目,包含六大核心部分:提示词工程、AI教程、AI机器人、多模态大模型、智能体和推理优化。该项目汇集了全球优秀的人工智能开源资源,适合不同需求的开发者学习。内容涵盖从基础理论到前沿应用,帮助读者系统掌握AI大模型相关知识,提升技术能力。建议读者根据自身需求选择学习内容,避免学习压力过大。人工智能这几年发展的速度越来越快,从卷积神经网络的不断突破迭代,到Transformer致力于实现大一统,再到MOE超大规模神经网络的架构范式,还有LangGraph等框架等。

2025-12-27 11:51:00 637

原创 AI大模型微调教程(超详细)35个经典面试问题从入门到精通,一篇全掌握!建议收藏

训练 loss 突然跳高但又下降。

2025-12-25 11:32:36 840

原创 2025年AI_Agent总结:迈向自主智能的智能体时代!

文章探讨了从生成式AI向Agentic AI的转变,详细介绍了六种AI智能体类型及其应用场景、技术支撑和商业价值,同时分析了智能体发展面临的挑战与责任。文章强调Agentic AI不仅是技术演进,更是人机协作关系的重构,AI正从被动工具转变为主动合作伙伴,开启自主智能的新纪元,并展望了智能体商店、个性化智能体和智能体治理体系的未来发展趋势。2025年,人工智能领域迎来了关键转折点,我们正从生成式AI迈向Agentic AI,从回应需求的生成式AI,迈向自主规划、执行任务的智能体。

2025-12-24 10:46:57 2339

原创 LangChain智能体工程年度报告发布!看这篇就够了,建议收藏学习!

2026年的Agent已经不是PPT里的概念了,它正在变成一种像“Excel”一样普及的生产工具。

2025-12-24 09:57:14 979

原创 RAG、微调、提示工程_三种让AI变聪明的方法,该怎么选?

从"在Google上搜自己"到"问AI关于自己",技术的进步让我们与机器的交互方式发生了根本变化。但更重要的是,我们现在有了多种工具来"调教"AI,让它更好地服务我们。无论是给它装上实时搜索能力(RAG),还是让它接受专业培训(Fine-tuning),亦或是学会更聪明地提问(Prompt Engineering),每种方法都有其独特价值。理解你的需求,选对工具,甚至组合使用。毕竟,AI不是魔法,而是一套可以被优化、被定制、被驾驭的工具。掌握了这三种方法,你就拿到了驾驭AI的方向盘。

2025-12-20 11:03:24 637

原创 最新最完整的Agent Memory综述!

这篇《AI智能体时代的记忆:综述》论文系统梳理了AI智能体的记忆机制,从形式、功能和动态机制三维度构建统一分类体系。记忆是AI从"静态回答者"进化为"动态成长智能体"的关键,未来将向生成式记忆、自动化管理和强化学习结合方向发展,使AI成为拥有"自传体记忆"和独特个性的数字生命体。今天的一篇很热乎的深度好文(AI智能体时代的记忆:综述),由新加坡国立大学、中国人民大学、复旦大学等多家顶尖机构联合发布,是对当前AI智能体(AI Agents)记忆机制最系统、最前沿的梳理。下面我们一起来看一下~

2025-12-20 10:45:03 1022

原创 产品经理学AI-9:AI黑话秒懂指南,Embedding

文章主要介绍了AI大模型相关的专业术语和概念,包括序列化/反序列化、解析/解析器、数据块(chunk)、词元(Token)、向量、嵌入(Embedding)、检索增强生成(RAG)、提示词、温度、TOP P采样、大型语言模型(LLM)、预训练和微调等。这些是理解和学习AI大模型的基础知识,帮助初学者理解行业术语,避免被专业术语吓退,为深入学习大模型奠定基础。最近一直在学习AI相关的课程,课程前前后后说了很多专业名词,有时候光听到名词,觉得特别高大上,但是听了老师的讲解后也会立马明白。

2025-12-20 10:26:36 778

原创 AI Agent凭什么成为下一代“操作系统”?

如果要用一句话来概括 AI Agent 的价值:它让我们从“告诉机器怎么做”,变成“告诉机器想要什么”。五大特征:自主决策、持续学习、多模态理解、工具生态、多智能体协作;六大模块:感知、决策、执行、记忆、反馈优化等完整技术架构;四种工作模式:目标导向、事件触发、人机协作、多智能体协同;以及一整套围绕任务分解、自我优化、开发实践、平台生态、行业应用展开的体系。2025 年之后,AI Agent 很可能会像当年的移动应用、云服务一样,逐步从“新鲜概念”变成基础设施。

2025-12-19 11:58:16 1281

原创 谷歌产品线太乱?Gemini从入门到精通(超详细教程)零基础也能学会!

(比如合同原件、核心代码)往里扔。

2025-12-19 11:43:08 841

原创 用Dify搭建企业级知识库(详细教程)小白到精通,一篇全掌握!

最近有同学咨询,说我如何想搭建一个自己本地的知识库。这个已经是个比较常见的AI应用场景,最早我在今年的2月份写过一篇文章《万人围观,用DeepSeek搭建个人知识库,真香!(附完整教程)》 ,本打算快速构建自己玩的,没想到也引来了很多人的关注。截至目前我看了下 阅读量20W+了,说明这是一个大家持续关注的话题。我看评论区也有很多以前没有解决的问题,后来随着模型的推进,也逐渐有了答案。。但是这篇是用CherryStudio + Deepseek 通过远程调用的,存在很多用户痛点。企业中数据安全如何保证?

2025-12-18 14:26:27 936

原创 索引_≠_检索!RAG高手都在用的六种知识表示方法!

RAG 索引是检索的基础。它是将原始知识转化为可经由相似性查询搜索的数值数据的过程。这些数值数据被称为嵌入(embeddings),嵌入捕获的是含义,而不仅仅是表面的文本。可以将其视为构建一个可搜索的知识库语义地图。每个知识块、摘要或查询变体都成为地图上的一个点。地图组织得越好,当用户提问时,你的检索器就能越好地识别出相关的知识。如果你的索引出了问题,例如知识块太大、嵌入捕捉到了噪音,或者数据的表示没有反映用户的意图,那么再好的 LLM 也帮不了你多少。

2025-12-18 13:45:10 703

原创 推荐一本训练大模型的书籍:从基础理论到分布式实战,一篇足够!

文章介绍了一本将于十二月出版的AI大模型新书,该书填补了市场上大模型实践训练资料的空白。书中不仅包含基础理论,还详细讲解了企业级大模型的训练方法,特别是分布式训练、并发处理等技术难题,以及如何提升训练效率和正确率。内容全面覆盖了大模型发展历史、理论基础、训练方法和架构演进,图文并茂,理论与实践结合,适合希望深入理解大模型训练的读者。讲大模型原理的书不少,但实际如何训练一个大模型却资料不多。最近发现了一本新书,围绕着这个点讲得很清楚,方方面面都顾及到了。可能很多人觉得训练大模型不就是一套固定的代码吗?

2025-12-18 12:01:50 933

原创 AI大模型多模态推荐技术:从基础到实战,一篇教程全掌握,值得收藏!

从这些工作可以看出,业界在多模态推荐的两大核心挑战上形成了不同的技术路线:基于ID交互关系对齐(快手QARM):适配现有推荐行为分布,但可能导致多模态特征退化;基于语义交互关系对齐(阿里妈妈):保持语义纯粹性,但可能脱离真实推荐场景;联合训练对齐(小红书AlignRec):通过深度融合平衡两者,但训练复杂度较高;量化编码(快手):将语义特征转化为可更新的语义ID,解决多模态表征更新问题;相似度分桶(淘宝):将连续相似度离散化为固定维度向量,简化使用方式;

2025-12-17 10:43:18 1179

原创 AI研究代理完全指南:从零基础到精通,收藏这一篇就够了!

简化编排逻辑,增强自主性。密切关注哪些模型和工具正在被优化,并利用它们正在涌现的功能。重点关注上下文工程(下一节将详细介绍)。

2025-12-17 10:18:24 326

原创 RAG知识库——怎么构建一个高质量的知识库

知识库是RAG系统的核心与生命线,其质量直接决定智能问答系统的表现。优秀知识库需兼容多数据源、处理复杂文档格式、实现数据更新与版本管理,并通过优化召回策略提升效率。随着数据量增长,完善的知识库架构设计变得至关重要,它能提升RAG系统的稳定性、扩展性和智能问答质量。知识库是RAG系统的核心功能,一个好的知识库系统能够大大提升RAG的质量。作者在最近大半年里做智能问答系统,基于RAG检索增强的思想,从传统的RAG召回增强,到现在的基于智能体技术的问答系统。

2025-12-11 11:37:53 1092

原创 AI大模型RAG进阶教程(超详细)9大核心技术全解析,从入门到精通,收藏必学!

文章介绍了9种高级RAG技术,包括文本分块、重新排序、元数据利用、混合搜索等,解决基本RAG系统面临的结果嘈杂、上下文不相关问题。详细解释了每种技术的原理、实现方法和适用场景,介绍了Meilisearch、LangChain等工具的应用,以及如何评估这些技术对检索质量的影响。通过应用这些技术,可以构建更智能、更准确的RAG系统,实现从"检索并希望"到"有目的地检索"的转变。在实际的 AI 应用中,RAG 技术能有效优化 RAG 管道的准确性和灵活性。

2025-12-11 11:22:06 801

原创 Ollama×魔搭社区:超简单的大模型本地部署方案

本文详细介绍了通过Ollama工具本地部署小参数AI大模型的方法。内容包括本地部署优势(数据私有化、无网络依赖、低成本)、显存需求计算、模型参数与位宽概念、魔搭社区资源利用,以及Ollama安装配置、模型下载与量化选择。文章针对N卡Windows系统提供操作指南,帮助用户实现本地化AI推理,适合需要隐私保护和离线使用的开发者和企业。

2025-12-10 11:51:35 385

原创 AI大模型知识蒸馏完全指南(超详细)从零基础到精通,一篇搞定,建议收藏!

知识蒸馏通过两种方式:白盒和黑盒。将教师模型的知识转移给学生模型。白盒知识蒸馏依赖于直接访问教师模型的内部细节,适合用于模型结构优化;黑盒知识蒸馏则通过模仿教师模型的输出,引导学生模型学习,适用于无法访问教师模型内部信息的场景。无论哪种方式,知识蒸馏都能够有效地压缩模型,同时保持较高的性能,在许多应用中具有重要价值,尤其是在大语言模型和复杂任务处理方面。

2025-12-08 21:16:12 1138

原创 Gemini 3.0从零到精通:超详细教程+实战指南,收藏这篇就够了!

本文详细介绍了Google Gemini 3.0 Pro模型的使用方法,包括前置条件、四大使用入口、Antigravity IDE开发环境、API调用配额管理及常见问题解答。文章为开发者和用户提供全面指南,帮助从零开始掌握Gemini 3.0的使用与开发,适合小白入门和程序员进阶。昨晚群里聊的爆炸,全都是在讨论gemini 3.0的强大,今给大家分享下如何快速上手Google最新的Gemini 3.0 Pro模型及其开发生态。1核心前置条件 (Prerequisites)

2025-12-08 20:48:07 5751

原创 基于知识图谱与Agentic RAG技术的AI知识库系统

系统定位为 “基于AI的一站式知识管理与分析决策平台” ,旨在为政府、央企、国企及大型IT集成商等客户提供私有化、自主可控、深度智能的知识管理解决方案。平台深度融合了检索增强生成(RAG)、全文搜索、知识图谱、MCP、多模态处理、大语言模型等前沿AI技术,致力于解决传统知识管理的根本性问题。我们不仅提供一个简单的文档存储库,更致力于构建一个能够持续学习、深度理解、智能推理的企业级“知识大脑”。

2025-12-06 15:22:19 1087

原创 企业级AI Agent落地宝典(超详细)从零基础到精通,建议永久收藏!

当前企业级 AI Agent 已实现从 “工具” 到 “岗位” 的跃迁,下一阶段的核心方向是成为 “岗位专家”。一方面通过 “自动化清洗 - 专家话术提纯 - 合成数据扩充” 的工业化数据体系,结合强化学习优化奖励模型,让 AI Agent 的能力向 “金牌员工” 对齐;另一方面通过多样化能力细化场景,例如金融领域的实时沟通策略调整、方言适配等,满足细分需求。当 AI Agent 具备岗位专家能力,实现模板化复用且价值与财务口径精准对齐时,规模化部署的条件将完全成熟,人机共存的全新生态或将全面到来。

2025-12-06 13:54:57 1047

原创 #企业级AI Agent落地宝典(超详细)从零基础到精通,建议永久收藏!

当前企业级 AI Agent 已实现从 “工具” 到 “岗位” 的跃迁,下一阶段的核心方向是成为 “岗位专家”。一方面通过 “自动化清洗 - 专家话术提纯 - 合成数据扩充” 的工业化数据体系,结合强化学习优化奖励模型,让 AI Agent 的能力向 “金牌员工” 对齐;另一方面通过多样化能力细化场景,例如金融领域的实时沟通策略调整、方言适配等,满足细分需求。当 AI Agent 具备岗位专家能力,实现模板化复用且价值与财务口径精准对齐时,规模化部署的条件将完全成熟,人机共存的全新生态或将全面到来。

2025-12-05 11:54:42 865

原创 多模态大模型完全指南(超详细)从零基础入门到精通,一篇搞定,值得收藏!

我们的解构之旅至此已近尾声。从 MLLM 的“三位一体”黄金架构,到“如何看得更清晰”这一核心矛盾所引出的两条截然不同的演进之路,我们见证了 LLaVA 和 Qwen3-VL 如何用各自的智慧给出了精彩的答案。•LLaVA 系列,向我们证明,一个极简的核心设计,通过持续的数据优化和以 AnyRes 为代表的输入端技术创新,完全有能力攀登到性能的顶峰。•Qwen3-VL,不再满足于模态间的浅层连接,而是通过等一系列深刻的内部架构创新,构建了一个真正意义上的“深度协同”系统。

2025-12-05 11:37:48 1010

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除