- 博客(638)
- 收藏
- 关注
原创 Deep Agents:AI 智能体 2.0 架构全解析
AI智能体正经历从1.0到2.0的架构革命。传统1.0版本依赖大语言模型的短期记忆处理简单任务,但在面对50步以上的复杂任务时,常因上下文溢出、目标丢失等问题失效。智能体2.0通过四大创新突破这些局限:显式规划生成明确的任务清单;层级委派实现专业分工;持久化记忆系统避免信息过载;极致的上下文工程提供精准指令。这种"主动规划+分工协作+持久记忆"的新架构,使AI能处理耗时数天的复杂任务,标志着从"做小事"到"办大事"的质变。
2025-12-01 17:14:47
830
原创 多智能体数据合成框架Matrix及知识图谱合成语义相似评估数据思路
可以把KG想象成“乐高积木模型”—原始模型是“猫->喜欢->鱼”,扰动就是“换积木”(把“鱼”换成“老鼠”)或“拆积木”(去掉“喜欢”关系),再让LLM把积木模型描述成自然语言,就得到了“猫喜欢鱼”和“猫喜欢老鼠”(相似句)、“猫鱼”(相异句),不用人工编句子。
2025-11-29 16:30:00
650
原创 无痛入门LangChain智能体开发
本文介绍了LangChain生态系统的演进与应用。从最初被诟病API复杂,LangChain已发展为涵盖研发、调试到部署的完整框架,成为智能体开发的入门首选。文章详细解析了LangChain的发展历程,包括核心组件LangChain、调试工具LangSmith、控制流升级的LangGraph以及部署平台的功能特点。同时阐述了Runnable和LCEL等基本概念,区分了无状态与有状态系统、工作流与智能体的差异。最后展示了聊天机器人和RAG问答等典型应用案例,并提供了AI大模型学习资源获取方式。全文系统性地呈现
2025-11-28 17:13:33
749
原创 醒醒!你离真正可运营的AI产品,还差一个完整的平台架构
企业级大模型平台建设面临算力管理、模型部署和运维等核心挑战。本文提出一站式解决方案,通过分层架构整合智算底座、模型层和应用层。底层兼容多架构算力资源池化,中层提供模型全生命周期管理,上层支持快速构建AI应用。平台强调安全合规与成本优化,建议企业采取试点到统一平台的渐进路径,平衡自建与采购策略。该架构旨在解决模型碎片化、算力利用率低等痛点,推动AI从技术演示转向稳定运营。
2025-11-27 16:12:56
875
原创 AI大模型应用的技术架构有哪些?一文讲清:4种AI大模型应用的技术架构
摘要:本文介绍了大模型应用的四大技术架构:纯Prompt、Agent+Function Calling、RAG(检索增强生成)和Fine-tuning(微调)。纯Prompt适合简单任务,通过自然语言指令直接操作模型;Agent+Function Calling结合外部工具处理复杂任务;RAG通过检索外部知识增强回答准确性;Fine-tuning则通过领域数据训练实现深度定制。文章分析了各架构的优缺点,建议根据任务复杂度、实时性需求和资源情况选择合适方案,并指出实际应用中常组合多种架构以优化效果。最后强调A
2025-11-26 16:43:33
838
原创 手把手教你卷积神经网络(CNN)模型:模型性能评估和预测策略
本文介绍了卷积神经网络(CNN)在mRNA修饰位点预测中的应用,重点阐述了模型性能评估和预测策略。文章首先强调了m6A修饰研究的重要性,然后详细解析了包括准确率、查准率、查全率、F1值、ROC曲线和PR曲线在内的多种评估指标。特别提出了双阈值预测策略,通过设置高低两个阈值区间来提升预测可靠性,只保留高置信度结果。最后展示了如何将模型应用于SNP效应预测,包括序列编码、概率计算和基于Z-score的双重筛选标准。文章还提供了相关代码示例,帮助读者理解如何实现这些评估和预测方法。
2025-11-25 11:58:11
901
原创 深度学习 序列生成模型Transformer 原理详解 图文解读 (草履虫都能学版)
Transformer模型是谷歌DeepMind在2017年提出的革命性架构,完全基于注意力机制取代传统循环结构。其核心由编码器和解码器堆叠组成,通过多头注意力、残差连接等模块实现序列处理。该模型解决了RNN难以捕捉长距离依赖的问题,显著提升了训练效率。关键创新包括:词嵌入+位置编码处理输入序列;QKV矩阵计算实现自注意力;多头注意力机制捕获多维度特征;掩膜注意力确保序列生成顺序性;交叉注意力连接输入输出序列。Transformer现已成为文本翻译、生成、语音处理等领域的核心技术基础,推动了AI大模型的发展
2025-11-22 21:40:02
711
原创 AI大模型运行效率关键节点优化概述
摘要:大语言模型采用自回归模式逐字生成文本,通过键值缓存技术优化推理效率。其推理过程分为预填充和解码两个阶段,前者计算初始键值缓存,后者逐步生成后续词元。模型规模、自注意力机制和解码方法是影响效率的关键因素,计算复杂度与内存需求随模型参数和文本长度显著增加。优化方向包括模型压缩、高效注意力机制和解码方法改进,以降低资源消耗并提升推理性能。
2025-11-22 20:02:56
860
原创 深度理解混合专家模型MoE Transformer 原理
摘要: 混合专家模型(MoE)通过仅激活部分专家子网络处理输入,显著降低计算成本,同时保持模型性能。例如,Meta的LLaMA 4采用MoE架构,以约一半推理成本实现GPT-4水平性能。MoE解码器层由多个小型前馈网络(专家)组成,路由器动态选择最优专家组合,并引入共享专家确保泛化能力。训练时加入高斯噪声和Top-K机制以均衡专家负载。MoE通过稀疏激活实现了模型高效扩展,成为AI研究的重要方向。
2025-11-20 14:18:19
925
原创 从文本到多模态,Embedding 模型选型指南
摘要:Embedding模型在语义搜索、推荐系统等领域具有关键作用。科技巨头纷纷加大研发投入,推出如OpenAI的text-embedding-3-small等高性能模型。选择模型需考虑任务类型(语义搜索、分类、推荐等)、数据特性(文本、图像、音频等模态)、模型受欢迎程度及许可类型。评估时需关注质量指标(如相关性、召回率)、负载性能及基准测试(如MTEB排行榜)。不同场景需选用针对性模型(如BioBERT用于医疗领域),并通过真实数据测试确保实际效果。
2025-11-19 16:30:54
749
原创 CNN经典网络模型架构学习之LeNet
本文介绍了卷积神经网络中的经典模型LeNet-5,该网络由Yann LeCun于1989年提出,主要用于手写数字识别。文章详细分析了LeNet-5的网络架构,包括特征提取层(两个卷积层+池化层组合)和分类层(三个全连接层),并解释了各层的参数计算方式。文中还提供了LeNet-5在PyTorch框架下的实现代码,展示了其前向计算过程。作为卷积神经网络的入门模型,LeNet-5结构简单但效果显著,至今仍应用于部分自动取款机系统中。
2025-11-18 16:54:37
824
原创 企业落地 RAG 系统优化手段全攻略,看这篇就够了!
本文系统阐述了RAG(检索增强生成)技术的优化路径。从检索器、索引分块、生成器三个核心环节入手,提出混合检索、两阶段检索、语义分块、Prompt工程等具体优化方法。针对企业落地痛点,重点讨论了降低幻觉、向量库调优等实践问题,并分享多跳推理、GraphRAG等前沿方向。全文覆盖技术架构、评测指标到工程实践,为企业RAG系统优化提供了一套完整解决方案,强调通过检索精准度和生成可靠性提升整体性能。
2025-11-17 20:33:42
491
原创 图解|Go语言实现 Agent|LLM+MCP+RAG
摘要: 本文介绍如何用Go语言构建一个AI代理(agent)系统,整合MCP、LLM和RAG技术。系统架构包含LLM模型(采用OpenAI ChatGPT)、MCP客户端/服务端通信框架和Agent协调层。文章详细讲解了ChatOpenAI的实现流程,包括流式对话处理和工具调用解析;MCP客户端的启动、初始化和工具调用机制;以及Agent如何整合两者实现功能调度。文中还提供了网页爬取的示例场景,展示了从用户提示到工具调用的完整流程。技术实现涉及多进程通信、模型交互和工具调度等关键环节。
2025-11-14 16:10:15
684
原创 30 个必知的 AI Agent 关键术语,狠狠码住!
AI Agent核心术语解析:30个关键概念助你掌握智能体技术 涵盖智能体基础架构(Agent、Environment、Tools)、认知机制(Reflection、Planning、Memory)、协作系统(Multi-agent、Orchestration)三大维度,包含ReAct推理框架、ARQ结构化方法等前沿技术。术语表特别适配LangChain/CrewAI等主流框架,涉及从目标决策到安全防护的全流程关键技术,为开发者提供系统化的智能体开发知识图谱。
2025-11-13 14:54:47
939
原创 AI的下半场:智能体(Agent)将如何重塑我们所有的应用?
AI智能体(AI Agent)是一种能够代表用户独立完成任务的系统,具备理解目标、选择行动路径和执行任务的能力。与传统聊天机器人不同,智能体不仅能"说",更能"做",通过工具使用(如数据库、API)实现工作流闭环。设计智能体需考虑模型选择、工具定义和指令配置,并采用编排模式(单/多智能体)和护栏体系确保安全与合规性。典型应用场景包括数据分析、自动化报告生成等需要模糊判断的任务。本文通过LangGraph框架示例演示了最小智能体的实现方法
2025-11-12 14:02:56
866
原创 揭秘多Agent系统的“操作系统”:任务调度、通信协议与可靠性设计全解析
多Agent系统:从单点智能到群体智慧的进化之路 本文系统阐述了多Agent系统的核心原理与实现框架。指出当业务需求日益复杂时,单一AI模型已无法胜任,需要多个智能体(Agent)协同工作。文章首先定义了Agent的三大特征:自主性、反应性和目标导向性,并分析了Agent间的协作模式与通信机制。随后比较了主流多Agent框架(AutoGen、CrewAI、LangGraph)的特点与适用场景,介绍了标准化通信协议MCP和A2A。最后探讨了任务调度策略、分布式实现方案(Ray框架)及异常处理机制,为构建可靠的
2025-11-11 21:08:08
578
原创 LLM模型架构对比图分享,看完你就悟了!
大模型技术对比:近期主流AI模型架构解析 近期Qwen3 Next、Kimi K2、MiniMax M2等新一代大模型相继发布,技术架构呈现多元化发展。Kimi K2 Thinking将上下文长度扩展至256k,采用1+8专家混合处理;Qwen3 Next创新性地组合GDN与Gated Attention模块;MiniMax-M2则采用分头处理的正则策略。这些模型在注意力机制上主要分为全量注意力(如MiniMax M2)和混合注意力(如Qwen3 Next)两种架构,展现了当前大模型技术的不同演进路径。
2025-11-10 14:37:22
403
原创 卷积神经网络是什么?13张图解卷积神经网络
卷积是一种关键的数学运算,通过滑动核矩阵在输入图像上进行点积运算来提取特征。本文详细介绍了卷积的实现原理,包括核设计、步长和填充参数的作用,并通过鸭子图像的实例演示了垂直和水平核的卷积效果。作者使用PyTorch实现卷积操作,强调深度学习中的核是自动学习的。文中还解释了转置卷积的益处和下采样方法的重要性,并指出卷积是计算机视觉任务的基础,但其实际实现采用的是互相关计算而非严格数学意义上的卷积。
2025-11-10 14:03:07
725
原创 从检索增强到深度研究:RAG、DeepSearch 与 DeepResearch 技术解析
本文系统解析了大语言模型在专业领域应用的三种技术演进:检索增强生成(RAG)、DeepSearch和DeepResearch。RAG通过外部知识检索与生成模型结合,解决了传统大语言模型的知识过时问题;DeepSearch引入动态检索与多Agent协作,提升了复杂问题的处理能力;DeepResearch则实现了从信息检索到知识创造的完整研究流程。文章详细对比了三者的技术原理、架构特点和适用场景,并展望了未来多模态知识处理的发展趋势。这三种技术层层递进,为不同复杂度的专业问题提供了针对性解决方案。
2025-11-08 17:52:36
767
原创 上下文工程:驱动智能体和大型语言模型(LLMs)的下一代核心技术!
摘要:上下文工程(Context Engineering)正成为构建高性能企业级AI应用的新范式,超越传统提示工程。该系统通过智能体协调决策、工具调用和动态提示更新形成闭环流程,结合短期/长期记忆管理(RAG、MCP协议)来优化模型表现。该方法整合了检索增强、工具扩展和知识持续积累能力,显著提升LLM的准确性、任务执行力和对话连贯性,是下一代可信AI系统的核心架构。文章最后提供了AI大模型学习资源包获取方式。
2025-11-08 17:06:53
578
原创 AI 智能体记忆架构演进之路:从 RAG 到智能体记忆的技术演进
本文从RAG演进视角探讨了AI智能体记忆的演变过程: 朴素RAG(一次性只读)通过外部知识库为LLM提供上下文,但存在检索盲目性; 智能体化RAG将检索作为工具调用,赋予智能体判断检索需求的能力; 智能体记忆进一步引入读写机制,使智能体能够存储交互信息形成持续记忆。 这种演进本质上是将信息与LLM上下文窗口的动态交互机制不断升级,从被动检索发展到主动记忆管理。记忆功能的实现使智能体能够积累个性化交互经验,为更复杂的认知行为奠定基础。
2025-11-06 17:47:57
921
原创 RAG已经过时了?试试CAG,缓存增强生成技术实战大揭秘!
本文探讨了传统RAG(检索增强生成)技术在AI客服系统中存在的问题及其改进方向。文章首先指出,在企业HR场景中,约1/3的用户咨询是重复性问题(如年假政策、差旅报销等),这些答案通常在制度文档中已明确记载且很少变动。然而,传统RAG系统每次遇到相同问题时都需要重新检索知识库,就像"每次出门都要重新翻找钥匙"一样低效。作者通过代码示例展示了传统RAG的实现方式及其性能统计,揭示了其"健忘症"本质——无法记忆高频问题的答案,导致不必要的重复检索和资源浪费。
2025-11-06 16:33:01
550
原创 一文讲清:LLM 幻觉:追踪,评估和解释
本文探讨大语言模型(LLM)中的幻觉现象,将其分为事实性幻觉(偏离真实事实)和忠实性幻觉(偏离用户输入或自相矛盾)。研究提出分布式语义追踪(DST)框架,整合因果路径追踪、表征干预等方法,系统分析幻觉成因。研究发现幻觉形成具有层级演化过程,并提出"推理捷径劫持"机制,即快速联想通路压制慢速语境通路导致幻觉。实验验证DST框架优于现有方法,为模型结构设计提供了重要参考。研究指出幻觉是模型架构在计算效率与逻辑稳健性间权衡的结果,未来需增强语境通路鲁棒性。
2025-11-04 21:48:43
596
原创 告别知识干扰!基于多向量库与动态路由的高精度RAG实战
企业知识库智能化面临多场景知识干扰问题。本文提出"场景路由+知识隔离"方案,通过分层RAG架构实现精准检索:用户问题首先经分类器识别业务场景,再定向到对应知识库检索,最后生成答案。文章详细介绍了三种实现方案(多向量库+分类器路由、元数据过滤、HyDE+查询重写),并提供了基于LlamaIndex的完整代码示例,包括场景配置、分类器实现和RAG引擎构建。该方案可有效避免跨场景干扰,提升问答准确性和用户体验。
2025-11-04 16:11:13
1039
原创 一文讲清:从 Prompt 到上下文工程构建 AI Agent
AI Agent开发的学习路径与关键技术总结 本文系统梳理了AI Agent开发的学习路径,重点针对不同阶段的开发者提出了四部分学习框架: 结构化提示词工程:包括输入输出的结构化设计、复杂问题模块化拆解和提示词路由分发 上下文工程与知识检索:关注RAG技术和上下文窗口优化,包含NoCode/ProCode两种实现路径 工具函数系统化设计:构建可复用的工具函数库和API接口 Agent规划与多Agent协作:实现任务自动化执行和复杂系统协调 文章特别强调了"知识诅咒"现象,指出开发者需要从
2025-11-03 14:58:26
925
原创 LangGraph过时了?下一代AI Agent架构已能处理多话题混合提问
摘要: 电商AI客服系统因"选择性失忆"引发用户投诉,暴露了当前主流AI Agent架构的监督者模式(Supervisor Pattern)缺陷。该模式通过路由机制将问题分发给单一专业Agent处理,但无法应对用户多主题混合提问(如同时询问退货和保修),导致回答不完整或推诿。新思路转向动态准则系统(Guidelines),让AI同时评估并综合多领域规则生成连贯答复,如Parlant框架所示。这一方案更贴近人类多线程对话逻辑,有望解决复杂场景下的客服需求。(149字)
2025-11-02 18:14:09
617
原创 以 Dify 架构为例,吃透 AI 原生应用开发平台的设计精髓
AI原生应用开发平台对比:Tasking AI与Dify架构解析 摘要: 本文对比分析了当前主流的两款AI原生应用开发平台——轻量级的Tasking AI和功能强大的Dify。两者均致力于降低AI开发门槛,解决模型选型、工具集成和流程编排等痛点。Tasking AI采用简洁的微服务架构,实现模型、工具和RAG模块化管理;而Dify则通过异步任务处理和GraphEngine任务编排引擎支持更复杂的应用场景。文章重点解析了两者的核心能力架构,包括模型统一接入、多租户隔离机制和可视化流程编排等特性
2025-10-30 16:08:22
705
原创 别再重复造轮子!智能体平台:企业解锁AI生产力的最短路径
在过去十年里,企业信息化的焦点一直围绕着“数字化转型”。ERP、CRM、BI系统让数据可被记录、管理与分析,但它们仍然是“被动的工具”——等人去操作,等指令去触发。而如今,人工智能的大潮正在改写这一格局。企业管理者开始提出一个新问题:“有没有一种系统,能像人一样理解业务语境、主动思考问题、自动完成任务?”这便是“智能体(Agent)平台”诞生的背景。它不同于以往的聊天机器人——后者只会回答,而前者会理解、推理、规划并执行。它是企业的智能中枢,是能在复杂业务场景中独立完成任务的“数字员工”。
2025-10-29 16:16:45
730
原创 CPU中断的工作原理是什么?看这篇文章就够了!
摘要:本文介绍了CPU中断处理机制,以x86实模式为例,阐述了中断检测和处理流程。中断分为软件中断(内部)和硬件中断(外部)。处理过程包括:关闭中断响应、保存指令地址、识别中断源、保存寄存器现场、执行中断服务程序、恢复现场并返回。重点说明了标志寄存器IF位的作用,以及STI/CLI指令控制中断响应的原理。文章还通过示例说明寄存器保护的重要性,并详细描述了中断返回指令IRET的操作过程。最后指出不同系统软硬件分工可能不同,编写中断程序需注意系统特性。(150字)
2025-10-28 20:22:18
742
原创 一文读懂!初学者AI模型训练指南:数据、模型选择、训练、部署一次讲透!
人工智能模型训练入门指南 本文介绍了训练AI模型的全流程,适合初学者快速掌握。主要内容包括:AI模型训练是通过数据让计算机自主学习模式的过程,核心包含数据集、算法和训练三要素。训练步骤分为:1)明确用例;2)收集和预处理数据;3)选择合适模型;4)配置计算环境;5)进行模型训练;6)验证测试;7)部署维护。文章强调数据集质量直接影响模型性能,并建议使用平衡数据集、监控关键指标、记录工作流程等原则。目前AI已广泛应用于自然语言处理、计算机视觉等多个领域,开源工具和云平台大大降低了训练门槛。
2025-10-27 16:12:27
700
原创 深入解析多智能体(Multi-Agent)系统的应用场景与架构模式
多智能体系统(MAS)是解决复杂AI任务的有效范式,适用于分布式问题、异构任务、系统鲁棒性需求及多方博弈场景。文章通过医疗诊断和新闻生成案例,展示了多Agent分工协作的优势,如关注点分离、质量提升和调试便利性。同时介绍了四种主流设计框架:Agents as Tools(工具型)、Swarm(蜂群式)、Graph(图结构)和Workflow(工作流),适用于不同场景需求。多智能体技术正成为AI解决复杂系统问题的关键方向,掌握其设计模式对构建下一代AI应用至关重要。
2025-10-24 17:08:54
1281
原创 为什么说今年离职要谨慎???
【150字摘要】AI技术正重构程序员职业竞争力,2025年不会AI的开发者恐面临淘汰。当前市场AI人才缺口巨大,大厂以百万年薪争抢大模型工程师。课程涵盖大模型微调、AI Agent开发等核心技能,通过实战项目培养全栈能力,助求职者突破35岁危机、转行高薪AI岗位。学习路径包含技术原理、工具使用、产品开发及前沿追踪,配套提供640套免费学习资源(面试题/路线图/PDF书籍等)。AI浪潮下,掌握大模型技术已成为职业发展的关键突破口。
2025-10-23 15:43:51
257
原创 智能体架构大重构:用GraphRAG作为“总指挥”,传统RAG作为“专家库”
传统RAG系统存在知识碎片化问题,无法理解跨文档逻辑关系。微软推出的GraphRAG通过构建知识图谱(实体为节点、关系为边),让大模型能理解信息间的深层联系。其工作流程分为索引阶段(提取实体关系构建知识图)和查询阶段(基于图谱推理回答复杂问题)。本文提供代码实例,展示如何用Neo4j+LangChain实现GraphRAG,并建议与传统RAG结合构建混合系统,既保留精准检索优势,又获得关联推理能力。
2025-10-22 17:17:39
772
原创 Mem0 记忆架构解析:构建具有可扩展长期记忆的生产级AI Agent
Mem0:突破AI Agent记忆瓶颈的新范式 摘要:当前AI系统依赖大语言模型上下文窗口维持对话连贯性,但存在信息截断、成本高昂等固有缺陷。Mem0通过创新的两阶段记忆流水线(提取+更新)实现了持久化记忆存储,其图增强版本Mem0ᵍ更通过有向标签图建模复杂关系。测试显示,相比传统方法,Mem0在LOCOMO基准上准确率提升26%,延迟降低91%,token消耗减少90%。这套记忆系统支持跨会话个性化服务,为医疗、教育等场景提供连贯可靠的AI交互体验,标志着AI Agent向"真正记忆能力&quo
2025-10-21 17:30:45
913
原创 一文读懂Agentic AI 与 AI Agent的核心区别
AI Agent与Agentic AI的核心区别解析:82%企业布局AI技术需厘清概念边界。AI Agent是单一任务执行者(如客服机器人),遵循预设规则完成结构化工作;Agentic AI则是多系统协同的智能引擎(如供应链优化系统),具备自主决策和动态学习能力。企业应根据业务场景选择技术路径:规则明确场景适用AI Agent提升效率,复杂战略决策需Agentic AI实现智能化。二者构成AI应用的完整生态,混合部署(如零售业用Agent处理订单、Agentic AI优化库存)将成为主流趋势。正确理解技术差
2025-10-20 17:39:02
865
原创 从 0 到 1 开发企业级 AI Agent 智能体:3 次架构迭代,踩透 AI Agent 落地的坑
本文分享了AI Agent在生成Helm Chart方面的实战经验,探讨了从初代全自主决策Agent到结构化工作流Agent的迭代过程。关键设计包括中间语言(部署蓝图JSON)和自愈循环(生成→Lint检查→修复),通过工程化思维解决LLM不确定性带来的问题。文章还提出了多Agent协作架构的未来方向,并总结了让AI-Agent落地的4个技巧:结构化约束、解耦不确定逻辑、利用外部反馈、LangGraph编排。最后反思了Prompt工程、AI不确定性和可观测性等痛点,指出当前AI Agent在企业级场景中最务
2025-10-18 19:51:39
597
原创 为什么深度学习需要使用GPU而不是CPU?
摘要 本文回顾了GPU技术的发展历程及其核心设计思想。从早期的固定管线渲染到可编程着色器的诞生,再到统一着色器架构的出现,GPU逐步演变为通用计算平台。现代GPU通过芯片瘦身、SIMT技术和多核并行设计,显著提升了并行计算能力。这些特性使得GPU特别适合深度学习等需要大规模并行计算的应用场景。文章还分析了GPU与CPU在架构设计上的差异,解释了为何GPU在图形渲染和深度学习领域具有显著性能优势。
2025-10-17 14:03:46
620
原创 卷积神经网络CNN的架构解析入门
本文系统解析了卷积神经网络(CNN)的基本架构和工作原理。CNN由特征提取和图像分类两部分组成:特征提取部分通过交替的卷积层、ReLU激活和池化层处理图像数据,提取关键特征;分类部分则通过全连接层和Softmax输出实现图像分类。重点介绍了卷积核运算、特征图生成、池化降维等核心操作,以及如何将多维特征数据Flatten为一维向量进行分类。文章还指出CNN相比传统神经网络在图像处理上的优势,并简要提及了大模型学习资源和AI行业发展前景。全文150字以内。
2025-10-16 11:05:23
503
原创 为什么Transformer选用LayerNorm而不是BatchNorm?
摘要:归一化是一种数据预处理技术,用于将特征缩放到统一范围(如[0,1]或[-1,1]),以消除量纲差异,提升模型性能。与标准化(如Z-score)不同,归一化(如Min-Max)直接限制数值范围。其核心作用包括:统一特征尺度、加速梯度下降收敛、防止梯度消失/爆炸、适配模型假设分布(如正态分布),以及公平化正则化约束。在深度学习中,层归一化(LayerNorm)通过样本内特征归一化,优于批归一化(BatchNorm)的批次依赖性,尤其适合Transformer等处理变长序列的模型。归一化技术从数据预处理到模
2025-10-15 14:52:07
733
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅