- 博客(67)
- 收藏
- 关注
原创 演进之路——从Toolformer到Agent生态
《AI工具调用能力的演进:从Toolformer到Agent生态》摘要:文章梳理了AI工具调用能力的发展历程,从2023年初的Toolformer(模型自学习API调用)和ReAct(推理与行动交织)的学术突破,到OpenAI Function Calling的产品化里程碑,再到各大厂商跟进和开源生态爆发。文章分析了从单工具到多Agent协作的架构演进,并展望了动态工具发现、工具组合创新、跨应用工作流等未来方向。
2026-03-12 19:24:54
492
原创 工程实践——手把手教你设计高质量的Skills
本文系统介绍了如何设计高质量的大模型Skill(功能调用)。首先解析了Skill定义的核心要素,包括函数名称、描述、参数等关键字段。然后提出三条黄金原则:描述要详细但不啰嗦、参数要包含示例和约束、善用枚举和默认值。文章还分析了常见陷阱(命名冲突、参数依赖、返回过大)及解决方案,并探讨了多Skill协作的三种模式(平行调用、链式调用、路由模式)。最后提出了评估Skill质量的四项指标(调用准确率、参数正确率等)。全文聚焦工程实践,为开发者提供了设计高质量Skills的具体指导。
2026-03-12 19:23:34
851
原创 原理探秘——大模型是如何“学会“使用工具的?
大模型工具调用能力的技术解析:模型通过微调学习函数调用模式,而非真正执行代码。开发者提供函数定义后,模型分析用户输入并生成结构化调用建议,实际执行由外部代码完成。两种实现路径——Prompt工程简单但不可靠,微调训练更精准。模型依赖函数描述的语义匹配和参数提取能力选择工具,并可通过循环调用实现自我纠错。这本质上是复杂的模式匹配,而非真正的"理解"。
2026-03-12 19:22:07
232
原创 从“大脑“到“手足“——为什么大模型需要Skills?
摘要:大语言模型虽具备强大认知能力,但受限于训练数据的时效性和执行能力。Skills作为外部函数工具,为模型提供了实时信息获取、精确计算和实际操作的扩展能力。通过定义名称、描述和参数,Skills使模型能够调用API执行特定任务,突破知识时效限制,弥补计算短板,实现从信息处理到服务执行的跨越。Skills以插件、函数调用、代码解释器等形态存在,是构建智能Agent的核心组件,推动AI从"会思考"向"能行动"进化。
2026-03-12 19:20:56
257
原创 大数据报表系统技术方案与业务方案设计
本文系统性地探讨了大数据报表系统的完整设计方案,分为技术架构和业务方案两大部分。技术架构篇提出六层架构体系(数据采集、存储、处理、建模、应用服务和展现分析),强调高性能、可扩展和安全管控,推荐流批一体和湖仓一体技术趋势。业务方案篇聚焦业务价值实现,提出从战略到执行的四层需求分析框架,强调统一指标体系设计和报表产品分类规划。文章结合网易数帆、帆软等业界优秀产品案例,为企业数字化转型提供了从技术实现到业务落地的全面参考方案。
2026-03-11 16:08:01
493
原创 数据库表膨胀深度揭秘:从原理到实战,一文终结“空间杀手”
PostgreSQL表膨胀深度解析与解决方案 PostgreSQL表膨胀是MVCC机制下的常见问题,表现为表占用空间远大于实际数据量。本文提供原理分析和解决方案。
2026-03-11 15:55:14
614
原创 CAP理论:分布式系统的“不可能三角”,用生活实例轻松搞懂
CAP理论是分布式系统领域的“公理”,由加州大学伯克利分校的Eric Brewer教授在2000年提出。它指出,一个分布式系统无法同时满足C(Consistency)一致性:所有节点在同一时刻看到的数据完全相同。就像你去ATM取钱,查询余额时,无论哪个ATM机,显示的金额都必须和你实际余额一致。A(Availability)可用性:每次请求都能收到响应(无论成功或失败),但不保证响应中的数据是最新的。就像你给朋友发微信,即使对方手机没信号,微信也会提示“发送中”,而不是直接报错。
2026-03-10 08:45:46
513
原创 GPT-5.4技术报告:从语言模型到数字员工的范式跃迁
2026年3月5日,OpenAI正式发布GPT-5.4系列模型。这是OpenAI首个将深度推理能力原生计算机操作能力(Computer-Use)和百万级Token上下文整合于单一通用模型的重要版本。GPT-5.4标志着大模型技术路线的一次关键转向:从“能够回答问题的聊天助手”进化为“能够直接执行复杂任务的数字员工”。本文从技术架构、核心能力、性能评测、安全对齐和商业应用五个维度,系统阐述GPT-5.4的技术突破与产业意义。
2026-03-08 11:14:00
967
原创 Transformer进阶技术全景解析系列(第四篇:模型压缩三剑客——知识蒸馏、量化与剪枝)
大语言模型动辄数十亿、数千亿参数,推理需要多张GPU,这严重限制了它们的应用场景。如何让这些“巨无霸”模型在手机、嵌入式设备上高效运行?**模型压缩技术**应运而生。
2026-03-07 10:15:13
616
原创 Transformer进阶技术全景解析系列(第三篇:旋转位置编码(RoPE)——让模型真正理解“位置关系”)
在之前的文章中,我们讨论过绝对位置编码的局限——它像给每个词贴上固定的门牌号,模型难以理解词与词之间的相对距离。而**旋转位置编码(Rotary Position Embedding, RoPE)**的出现,彻底改变了这一局面。
2026-03-07 10:13:43
445
原创 Transformer进阶技术全景解析系列(第二篇:百万级长上下文——突破序列长度的“魔法”)
人类大脑有一个神奇的能力——虽然短期记忆容量有限,但我们可以通过笔记、书籍等外部媒介扩展记忆。同样,语言模型也在经历从“短时记忆”到“过目不忘”的进化。
2026-03-07 10:10:54
731
原创 Transformer进阶技术全景解析系列(第一篇:高效注意力机制——让Transformer“轻装上阵”)
高效注意力机制的目标,就是让这场“全员会议”变成“智能筛选会议”——只让相关的人发言,或者用摘要代替冗长的发言。
2026-03-07 10:08:14
346
原创 Transformer的三大局限性:复杂度、位置编码与可解释性深度剖析
本文将深入探讨Transformer的三大核心局限性:计算复杂度爆炸、位置编码的先天不足以及可解释性黑箱。我们将分析这些问题产生的原因,并通过生活实例帮助理解,最后介绍学术界和工业界提出的主要解决策略。
2026-03-07 10:00:20
603
原创 BERT深度解析:架构、预训练任务与输入表示
BERT(Bidirectional Encoder Representations from Transformers)是一个基于Transformer编码器的预训练语言模型。双向上下文建模:通过掩码机制同时学习单词两侧的上下文信息预训练-微调范式:先在大量无标注文本上预训练,再针对具体任务微调统一的模型架构:同一套模型可以适配多种下游任务真正的双向理解:通过MLM任务,BERT能同时利用左右上下文,突破单向模型的限制深层次语义建模。
2026-03-04 17:11:54
830
原创 第四篇:Transformer完整架构——编码器-解码器的精密协作
Transformer架构详解:编码器-解码器的协同工作 Transformer由编码器和解码器两大核心组件构成。编码器负责将输入序列转换为深度语义表示,包含6层相同的结构,每层由多头自注意力和前馈网络组成,并采用残差连接和层归一化来稳定训练。解码器则负责生成输出序列,比编码器多一个编码器-解码器注意力子层,通过掩码机制防止"偷看未来"信息,同时利用编码器的输出作为参考。该架构通过自注意力机制解决了RNN/CNN的三大问题:串行计算瓶颈、长距离依赖和并行能力限制。
2026-03-04 08:35:37
478
原创 第三篇:多头注意力与位置编码——从多个角度看世界
本文详细解析了Transformer中的多头注意力机制和位置编码。多头注意力通过并行计算多个独立的注意力头,让模型能从语法、语义等不同角度理解词间关系,类似于专家会诊。位置编码则通过正弦/余弦函数为词向量注入位置信息,解决自注意力缺乏顺序感知的问题。两者结合使Transformer能同时捕捉全局依赖、多角度关系和序列顺序,实现高效的并行计算。这些设计共同构成了Transformer强大的语言理解能力。
2026-03-03 20:29:41
368
原创 第二篇:自注意力机制深度拆解——让模型学会“抓重点”
本文深入解析了Transformer模型中的自注意力机制。通过类比鸡尾酒会效应和主持人找发言人的场景,形象解释了Query、Key、Value三个核心概念。文章详细拆解了自注意力的四步计算过程:计算相似度、缩放、Softmax归一化和加权求和,并通过"猫追老鼠"的具体数值示例演示了计算过程。重点分析了缩放点积注意力的工程意义,包括避免梯度消失和提高计算效率。最后指出自注意力机制让每个词都能关注序列中的所有词,从而捕捉全局语义关系,这是Transformer的核心创新所在。
2026-03-03 20:28:11
835
原创 第一篇:技术革命的前夜——Transformer要解决什么问题?
摘要 2017年谷歌发表的《Attention Is All You Need》论文开创了Transformer架构,彻底改变了自然语言处理领域。本文作为系列解读的第一篇,分析了Transformer诞生的背景:传统RNN存在串行计算、长距离依赖和并行性差三大瓶颈,CNN则受限于局部视野。Transformer通过纯注意力机制实现全局信息获取和高度并行计算,在翻译任务上取得突破性表现(28.4 BLEU分数),为后续GPT、BERT等大语言模型奠定了基础。该论文的理论创新、工程突破和性能提升使其成为AI领域
2026-03-03 20:25:47
436
原创 深入理解注意力机制:从心理学现象到数学模型
本文从心理学现象出发,生动解释了注意力机制的核心思想:让模型像人类一样聚焦关键信息。通过"批改作文"和"主持人找发言人"的类比,形象说明了注意力机制如何动态分配计算资源。文章重点解析了注意力机制的三要素(Query、Key、Value)及其数学计算过程,包括相似度计算、缩放归一化和加权求和三个关键步骤,并通过具体数值示例详细演示了整个计算流程。最后给出了标准公式和可视化说明,帮助读者全面理解这一深度学习中的核心技术。
2026-03-03 20:08:36
466
原创 长短期记忆网络(LSTM)与门控循环单元(GRU):门控机制、变体及其优势
LSTM和GRU是两种解决RNN梯度消失问题的有效门控机制。LSTM通过细胞状态和三个门控单元(遗忘门、输入门、输出门)实现信息选择性记忆;GRU是简化版本,将遗忘门和输入门合并为更新门,并融合细胞状态与隐藏状态。两者都能有效捕捉长距离依赖关系,LSTM结构更复杂但表现稳定,GRU参数更少计算效率更高。实际应用中,GRU常在小数据集上表现更好,而LSTM在处理更复杂任务时更具优势。选择时需权衡模型复杂度与任务需求。
2026-03-03 16:51:10
715
原创 循环神经网络(RNN)详解:结构、问题与双向RNN
本文详细介绍了循环神经网络(RNN)的基本结构、训练问题及其改进方法。RNN通过隐藏状态保留记忆,能够处理序列数据,但存在梯度消失/爆炸问题,难以学习长期依赖。双向RNN通过结合正向和反向信息流,提升了模型的上下文理解能力。RNN及其变体广泛应用于自然语言处理、时间序列预测等领域。文章通过天气预测、完形填空等生活实例生动解释了这些概念,为理解更复杂的序列模型奠定了基础。
2026-03-03 16:44:54
813
原创 中文分词工具全景指南:从入门到实战
中文分词(Chinese Word Segmentation)指将汉字序列切分成一个个单独的词或词串序列,它能够在没有词边界的中文字符串中建立分隔标志,通常采用空格分隔。输入:“我是程序员”输出:“我 是 程序员”# 添加单个词jieba.add_word('绿肥红瘦')# 建议词频,调整词被切分的概率jieba.suggest_freq(('知否'), True)# 加载自定义词典文件(每行格式:词语 词频 词性)优点:简单易用、社区活跃、文档丰富缺点:对新词和网络用语识别效果相对较差。
2026-03-02 21:10:15
876
原创 自然语言处理入门:从基础到序列模型
本文从NLP基础概念出发,介绍了文本预处理、词嵌入、语言模型,并深入讲解了RNN及其改进LSTM/GRU。通过两个实战项目,展示了如何用LSTM解决情感分类和文本生成问题。掌握这些知识,你就迈出了深度学习NLP的第一步。课程:斯坦福CS224N(Natural Language Processing with Deep Learning)前几讲,系统讲解NLP与深度学习。书籍:《深度学习》(花书)第10章,深入探讨序列建模。博客。
2026-03-02 21:05:03
646
原创 MCP深度解析:AI世界的“通用翻译器”是如何工作的?
MCP:AI工具的"通用翻译器" MCP(Model Context Protocol)正在革新AI工具调用方式,它像USB-C接口一样标准化模型与外部工具的连接。这一开放协议解决了AI工具调用的三大痛点:碎片化、高耦合和上下文丢失。MCP采用三层架构(主机-客户端-服务器)和JSON-RPC通信规范,支持动态工具发现、上下文传递和安全控制。相比传统Function Calling,MCP实现了跨模型兼容和工具热插拔,让AI应用开发更高效灵活。通过统一接口设计,MCP正推动AI生态向标准
2026-03-01 19:30:41
984
原创 深度学习四大组件详解:残差连接、批标准化、注意力机制与深度可分离卷积
残差连接让梯度畅通,使网络可以极深。批标准化稳定训练,加速收敛。注意力机制让网络学会聚焦重要信息,提升性能。深度可分离卷积大幅降低计算成本,助力移动端部署。这些技术并非孤立存在,它们常常共同出现在现代网络架构中(如ResNet+BN,MobileNet+SE)。理解它们,就掌握了构建高效深度学习模型的基石。希望本文的数值示例和生活类比能帮你彻底弄懂这些概念!
2026-02-27 14:44:46
802
原创 【CNN算法理解】:七、MobileNet-为移动设备量身打造的轻量化神经网络
MobileNet系列是专为移动设备设计的轻量化神经网络。其核心创新包括:V1引入深度可分离卷积,将标准卷积拆分为深度卷积和逐点卷积,计算量可减少8.4倍;V2提出线性瓶颈和逆残差结构,解决低维信息损失问题;V3结合神经架构搜索技术,加入通道注意力机制。MobileNet通过宽度和分辨率乘数实现精度与效率的平衡,已成功应用于果蔬识别、垃圾分类等移动场景。该系列网络从V1到V4不断优化,推动了AI在移动终端的普及应用,为边缘计算和物联网发展提供了关键技术支撑。
2026-02-27 08:26:51
633
原创 【CNN算法理解】:七、动手实现DenseNet代码详解与实战
本文详细介绍了如何使用PyTorch实现DenseNet网络。主要内容包括: 基础组件实现:构建BN-ReLU-Conv标准组合模块 DenseLayer实现:包含Bottleneck结构和特征拼接操作 DenseBlock实现:堆叠多个DenseLayer Transition层实现:负责特征压缩和降采样 完整DenseNet架构:以DenseNet-121为例,说明网络各层配置 通过逐层解析和代码实现,读者可以深入理解DenseNet的设计理念和实现细节,包括特征重用机制、Bottleneck结构优化等
2026-02-26 18:49:11
556
原创 【CNN算法理解】:七、深入浅出DenseNet:密集连接如何铸就CVPR 2017最佳论文
DenseNet(密集连接卷积网络)是2017年提出的创新性CNN架构,通过密集连接机制在通道维度拼接所有前驱层的特征图,实现了比ResNet更高效的特征复用。其核心结构由DenseBlock(保持特征图尺寸不变)和Transition层(压缩通道数和下采样)交替组成,通过较小的增长率(k)控制网络宽度。DenseNet具有三大优势:缓解梯度消失、提升参数效率、减少特征冗余,在参数更少的情况下达到或超越ResNet性能。
2026-02-26 18:41:20
478
原创 【CNN算法理解】:六、ResNet(残差网络)(代码实现)
残差块:通过跳跃连接将输入直接加到输出上。下采样模块:当尺寸或通道数变化时,使用 1×1 卷积调整 identity 分支。Bottleneck 结构:通过降维升维在保持性能的同时减少计算量。层次化构建:使用方法灵活堆叠残差块。
2026-02-26 17:07:35
404
原创 【CNN算法理解】:六、ResNet(残差网络)
在深度神经网络中,退化问题指的是:随着网络层数的增加,模型在训练集上的准确率达到饱和后,反而出现迅速下降的现象。这种下降并非由过拟合导致(过拟合时训练准确率仍很高,只是测试准确率下降),而是由于深层网络难以优化,导致训练误差升高。典型现象在CIFAR-10数据集上,一个20层的普通网络(plain network)训练误差较低;而一个56层的普通网络,训练误差反而比20层网络更高,测试误差也更高。这表明,单纯增加层数并不能自动提升性能,反而可能损害优化效果。
2026-02-26 16:36:56
754
原创 Agent、Skills 与 MCP:智能体的“大脑、手脚与通用语言”
摘要: AI智能体生态由三大核心构成:Agent作为决策大脑,负责目标拆解与任务规划;Skills是执行单元,提供原子化功能(如查询、计算);MCP协议则是标准化接口,实现跨平台工具调用。三者关系可类比为:项目经理(Agent)指挥专业人员(Skills)工作,通过国际插座标准(MCP)接入全球工具。其中,Agent与Skills是主从关系,MCP则实现语言无关的远程服务调用。这种分层架构(决策层-执行层-协议层)推动AI生态向开放协作发展,未来智能体将能动态接入分布式能力网络。
2026-02-26 08:57:31
654
原创 【CNN算法理解】:五、GoogLeNet/Inception 代码实现和计算示例
本文介绍了使用PyTorch实现的GoogLeNet(Inception v1)网络结构。该实现包含三个核心模块:Inception模块采用多路径并行结构(1x1、3x3、5x5卷积和池化层),通过通道拼接融合多尺度特征;AuxClassifier辅助分类器在中间层提供额外梯度;完整的GoogLeNet类整合了9个Inception模块和2个辅助分类器。网络采用模块化设计,包含详细的参数注释,并保留了原论文的局部响应归一化(LRN)层。实现还考虑了训练时的辅助分类器开关选项,并提供了权重初始化方法。
2026-02-25 16:02:07
709
原创 【CNN算法理解】:五、GoogLeNet/Inception 工作原理
在卷积神经网络中,一个标准的卷积层使用尺寸为K×KK \times KK×K的卷积核在空间上滑动,同时作用于所有输入通道。对于1×1 卷积,卷积核的空间尺寸就是1×11 \times 11×1,因此它没有“感受野”的概念——它只是在每个空间位置上,对输入的所有通道进行线性组合(加权求和),然后通过激活函数(如 ReLU)得到输出。换句话说,1×1 卷积的本质是一个跨通道的全连接层,它作用于每个空间位置,共享相同的权重。
2026-02-25 15:20:42
597
原创 【CNN算法理解】:四、VGGNet(深度与3×3卷积)(感受野)
本文通过一维和二维示例解析了卷积神经网络中感受野的计算方法。在一维情况下,两次3×1卷积(步长1,填充1)使感受野从3扩展到5,而非简单相加6,因为相邻感受野存在重叠。在二维图像中,堆叠3×3卷积会形成更大的感受野:1层为3×3,2层为5×5,3层达到7×7。数学上,感受野递推公式为rₗ = rₗ₋₁ + (k-1)。虽然3层3×3卷积与单层7×7卷积具有相同感受野,但前者参数更少且能引入更多非线性,体现了VGGNet使用小卷积核堆叠的设计优势。
2026-02-25 10:49:04
593
原创 【CNN算法理解】:四、VGGNet(深度与3×3卷积)(代码实现)
本文详细介绍了手动实现VGGNet(支持VGG11/13/16/19)的过程。通过PyTorch框架构建网络,重点解析了VGG的核心设计思想——堆叠3×3小卷积核构建深度网络。文章展示了如何通过配置字典动态生成不同变体的网络结构,详细解释了卷积层、池化层的参数设置以及全连接层的维度计算。同时介绍了批归一化、Dropout等关键操作的实现,并提供了权重初始化的具体方法。通过手动实现,可以直观理解VGG网络参数主要集中在全连接层的特点,以及小卷积核堆叠带来的优势。
2026-02-24 14:29:55
884
原创 【CNN算法理解】:四、VGGNet(深度与3×3卷积)
这是VGGNet最精髓的部分。等效感受野2个串联的3×3卷积层:其有效感受野是5×5。第一层3×3卷积覆盖了中心像素周围的3×3区域。第二层3×3卷积在此基础上,又将每个点扩展了3×3,因此最远的像素距离中心是 3 + (3-1) = 5。3个串联的3×3卷积层:其有效感受野是7×7。同理,距离为 3 + (3-1) + (3-1) = 7。结论:通过堆叠小卷积核,可以模拟大卷积核的感受野,让网络在更深层“看到”更广阔的图像区域。参数量更少这是一个关键优势。假设输入和输出通道数均为C。
2026-02-24 11:23:49
845
原创 【CNN算法理解】:二、AlexNet深度学习的AlexNetTrainer 训练器(附代码)
本文介绍了AlexNet模型的训练配置与实现细节。主要内容包括:1) 初始化配置支持GPU优先的设备选择策略;2) 训练设置采用SGD优化器,学习率0.001,配合多阶段学习率调度;3) 训练流程包含梯度裁剪和早停机制;4) 评估功能计算总体及类别准确率;5) 提供训练曲线可视化功能。实验部分展示了在CIFAR-10数据集上的训练示例,简化版AlexNet可获得约80-83%的测试准确率。最后给出了学习率调整、正则化增强等调优建议。该实现完整复现了AlexNet的核心训练逻辑,并针对现代深度学习环境进行了优
2026-02-11 10:32:34
763
原创 【CNN算法理解】:三、AlexNet 训练模块(附代码)
本文介绍了AlexNet神经网络及其简化版的完整实现。原始AlexNet包含5个卷积层和3个全连接层,输入尺寸227×227×3,输出1000类,采用ReLU激活和局部响应归一化(LRN)。简化版针对小数据集(如CIFAR-10)进行了调整:缩小输入尺寸(32×32)、减少通道数、去除LRN、修改全连接层结构。文章详细列出了各层参数配置、输入输出尺寸及参数数量计算方法,并提供了PyTorch实现代码。该实现支持多种数据集和训练配置,包含完整的训练框架。
2026-02-11 10:28:47
538
原创 【CNN算法理解】:二、AlexNet深度学习的数据集处理(附代码)
本文介绍了AlexNet深度学习模型的数据集处理方法,重点展示了使用PyTorch处理CIFAR-10数据集的代码实现。主要内容包括:1)定义AlexNetDataHandler类实现数据预处理和加载;2)提供ImageNet和CIFAR-10两种标准预处理转换方法;3)实现CIFAR-10数据集的下载、划分和加载功能;4)包含数据可视化方法用于检查预处理效果。代码通过随机裁剪、水平翻转等数据增强技术提高模型泛化能力,并采用标准化处理优化训练效果。
2026-02-10 20:25:40
132
原创 【CNN算法理解】:二、AlexNet深度学习的数据集处理
AlexNetDataHandler是一个PyTorch数据集处理类,专为AlexNet神经网络设计。它提供标准化的数据加载、预处理和增强功能,支持ImageNet和CIFAR-10等常见数据集。主要特性包括:自定义批处理大小和多线程加载;针对不同数据集的数据预处理流程(包括随机裁剪、翻转、颜色增强等);数据可视化功能;以及性能优化建议(如多线程加载、批次大小选择)。该类还包含故障排除指南和扩展功能说明,适合用于计算机视觉任务的深度学习项目。
2026-02-10 20:21:21
656
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅