- 博客(628)
- 资源 (8)
- 收藏
- 关注
原创 深度学习优化算法与实践:随机梯度下降及其在深度学习中的应用
本文介绍了随机梯度下降(SGD)方法及其在深度学习中的应用。主要内容包括:1)SGD通过随机采样样本计算梯度,将每次迭代计算代价从O(n)降至O(1),是梯度下降的高效替代方案;2)动态学习率策略(分段常数、指数衰减、多项式衰减)对优化过程至关重要,实验显示多项式衰减能获得更好的收敛效果;3)在凸函数假设下分析了SGD的收敛性,证明其能逐步逼近最优解。文章通过Python代码示例展示了SGD的实际表现,并比较了不同学习率策略的效果,指出在非凸情况下(如深度学习)SGD的最优性保证通常不成立。
2026-01-29 23:04:32
204
原创 深度学习优化算法与实践:梯度下降与优化算法
梯度下降是一种优化算法,通过沿目标函数负梯度方向迭代更新参数来寻找最小值。本文介绍了梯度下降的基本原理,包括一维和多元情况下的实现。关键点包括:学习率的选择至关重要,过大会导致发散,过小收敛缓慢;梯度下降可能陷入局部极小值;高维情况下需要调整学习率和预处理;牛顿法在凸问题上收敛更快。通过代码示例展示了不同学习率对优化过程的影响,并演示了梯度下降在非凸函数中的应用。
2026-01-20 23:14:03
702
原创 深度学习优化算法与实践:凸性理论与应用
本文介绍了凸性的基本概念及其在优化中的重要性。首先定义了凸集和凸函数,并分析了它们的性质:凸集的交集保持凸性,而并集不一定;凸函数的局部极小值即为全局极小值。通过詹森不等式说明了凸函数的期望性质,并展示了如何利用凸性简化复杂表达式。文章还讨论了凸优化问题的求解方法,如拉格朗日乘数法和投影法。最后通过Python代码示例直观展示了凸函数与非凸函数的区别。这些概念为后续优化算法设计奠定了基础。
2026-01-20 16:25:22
632
原创 深度学习优化算法与实践 :深度学习中的优化算法与挑战
本文探讨了优化与深度学习的关系及在深度学习中使用优化的挑战。深度学习通过定义损失函数并使用优化算法最小化损失,但两者的目标不同:优化关注最小化训练误差,而深度学习旨在降低泛化误差。文章分析了深度学习优化的三大挑战:局部最小值、鞍点和梯度消失。局部最小值可能阻碍达到全局最优;鞍点使梯度消失但非极值点;梯度消失导致训练停滞。尽管存在这些问题,现代优化算法仍能有效处理深度学习任务,且近似解通常已足够实用。文中通过数学函数示例和可视化展示了这些优化挑战的具体表现。
2026-01-19 17:18:30
927
原创 深度学习优化算法与实践
本文系统介绍了深度学习中的优化算法体系,涵盖基础理论到前沿技术。主要内容包括:凸性理论、梯度下降系列算法(标准/随机/小批量)、动量法、自适应优化算法(AdaGrad/RMSProp/Adadelta/Adam/Yogi)以及学习率调度策略。该学习路径从理论到实践,全面解析了深度学习模型训练中的优化挑战与解决方案,为模型性能提升提供系统化指导。
2026-01-19 16:27:09
185
原创 注意力机制与Transformer实践:Transformer模型架构与实现
本课程将学习Transformer的模型架构并实现Transformer。Transformer是编码器-解码器架构的一个实践,尽管在实际情况中编码器或解码器可以单独使用。在Transformer中,多头自注意力用于表示输入序列和输出序列,不过解码器必须通过掩蔽机制来保留自回归属性。Transformer中的残差连接和层规范化是训练非常深度模型的重要工具。Transformer模型中基于位置的前馈网络使用同一个多层感知机,作用是对所有序列位置的表示进行转换。
2026-01-19 11:32:01
910
原创 注意力机制与Transformer实践:自注意力和位置编码原理与实现
本课程介绍了自注意力机制和位置编码在序列处理中的应用。主要内容包括:1) 自注意力原理及其与CNN、RNN的比较,自注意力具有并行计算优势但计算复杂度较高;2) 位置编码通过添加正弦/余弦位置信息来保留序列顺序,弥补自注意力忽略位置关系的缺陷;3) 详细解析了位置编码矩阵的设计思路,展示了不同维度上的频率变化模式。通过代码示例演示了多头自注意力实现和位置编码的可视化效果,帮助理解这些机制如何协同工作来处理序列数据。
2026-01-16 16:57:50
713
原创 注意力机制与Transformer实践:多头注意力机制深度解析
多头注意力机制摘要 多头注意力是一种改进的注意力机制,允许模型同时学习序列数据中不同范围的依赖关系。其核心思想是通过多组独立的线性变换(查询、键、值)并行计算注意力,然后将各头输出拼接并通过线性变换生成最终结果。每个注意力头可以关注输入的不同部分,从而捕获短距离和长距离等多种依赖模式。实现时通常采用缩放点积注意力作为基础单元,并通过转置操作实现多头并行计算。这种设计在保持计算效率的同时,显著增强了模型的表达能力。
2026-01-16 16:21:39
925
原创 数字孪生:通向物理AI的技术路径探究
摘要:GIS、BIM和CIM是数字孪生技术的三大核心支撑技术,分别从宏观、微观和中观层面构建物理世界的数字化映射。GIS处理地理空间数据,BIM专注于建筑全生命周期管理,CIM则整合城市多维信息。随着物联网、大数据、AI等新技术的发展,数字孪生正从静态建模向动态智能预测转变,实现多尺度模型融合和自主决策。未来,数字孪生将推动各行业数字化转型,成为连接物理与数字世界的桥梁。(149字)
2026-01-16 15:01:03
1198
原创 注意力机制与Transformer实践:Bahdanau注意力机制原理与实现
摘要 本文介绍了Bahdanau注意力机制在循环神经网络编码器-解码器架构中的应用。Bahdanau注意力通过计算上下文变量作为注意力集中的输出,使模型能够动态关注输入序列中与当前预测相关的部分。文章详细阐述了注意力解码器的实现过程,包括初始化解码器状态、处理编码器输出以及计算注意力权重等关键步骤。通过小批量测试验证了Bahdanau注意力解码器的有效性,并提供了使用fra-eng数据集进行训练的指导。该机制克服了传统seq2seq模型单向对齐的限制,显著提升了机器翻译等序列转换任务的性能。
2026-01-16 11:18:53
728
原创 注意力机制与Transformer实践:注意力评分函数原理与实现
本文介绍了注意力评分函数的基本原理和应用。主要内容包括:1)注意力评分函数通过计算查询与键的相似度生成注意力权重,输出为值的加权和;2)掩蔽softmax操作可过滤无效词元;3)加性注意力适用于查询和键长度不同的情况,通过多层感知机计算评分。文章还提供了相关代码实现,展示了如何在实际中应用这些技术。这些方法为构建更复杂的注意力机制奠定了基础。
2026-01-15 17:43:19
751
原创 注意力机制与Transformer实践:Nadaraya-Watson核回归与注意力机制应用
本文介绍了Nadaraya-Watson核回归模型及其基于注意力机制的实现方法。主要内容包括:1) 通过生成非线性函数数据集展示平均汇聚的局限性;2) 提出非参数注意力汇聚模型,使用高斯核计算注意力权重,实现更准确的预测;3) 扩展为带参数注意力汇聚模型,引入可学习参数提升模型性能;4) 讲解批量矩阵乘法在高效计算小批量数据注意力权重中的应用。实验结果表明,注意力汇聚模型相比简单平均汇聚能更好地拟合非线性数据,且注意力权重可视化直观展示了查询-键对的相似度关系。
2026-01-15 17:20:12
847
原创 注意力机制与Transformer实践:注意力机制及其在神经网络中的应用
本文介绍了注意力机制的基本概念及其在人类认知和神经网络中的应用。首先指出注意力是一种稀缺资源,解释了注意力经济现象。然后通过生物学视角分析了非自主性和自主性注意力提示的区别,并引入神经网络中的注意力框架,将感官输入抽象为键值对,查询作为自主性提示。最后通过可视化方法展示了注意力权重的分布模式,为理解注意力机制提供了直观示例。文章为后续深入学习注意力模型奠定了理论基础。
2026-01-15 14:00:17
754
原创 注意力机制与Transformer实践
本文系统介绍了注意力机制及其在神经网络中的应用。首先探讨了Nadaraya-Watson核回归与注意力机制的关系,随后详细解析了注意力评分函数的原理与实现。文章重点阐述了Bahdanau注意力机制、多头注意力机制和自注意力机制的工作原理及实现方法,并讨论了位置编码在Transformer中的关键作用。最后,全面剖析了Transformer模型的整体架构及其实现细节,为深度学习中的注意力机制应用提供了完整的理论框架和实践指导。
2026-01-15 11:09:25
213
原创 Claude Cowork(AI编程助手)介绍
Claude Cowork是Anthropic推出的AI编程助手,通过自然语言指令帮助用户处理代码和跨应用任务。核心特点包括持久化工作区、全库感知、迭代式协作等,支持文件操作、代码处理、文档生成等功能。典型应用场景包括快速理解代码库、安全重构、自动生成技术文档等。基于Skills系统实现功能复用,适用于开发者、技术作者及普通用户。用户评价显示能显著提升工作效率,但需注意敏感代码保护和人工复核关键路径。该工具将AI协作从简单问答升级为持续工作伙伴,大幅降低了技术使用门槛。
2026-01-15 08:45:44
459
原创 idea社区版部署新项目出现:找不到符号 问题解决方法
摘要:IDEA社区版从Git拉取项目后编译报错"找不到符号"等问题,原因是社区版默认不启用Lombok注解处理。解决方法为手动勾选"Enable annotation processing"选项启用注解处理功能,即可解决编译错误问题。该设置在企业版中是自动配置的,但社区版需要用户手动开启。
2026-01-14 16:57:33
199
原创 Grok产品总体架构(Grok版)
Grok 4产品架构设计文档概述了xAI开发的AI助手系统,采用模块化、可扩展和安全的设计原则。系统流程分为六个阶段:查询接收(含输入校验)、预处理(上下文增强与安全过滤)、核心处理(大语言模型推理)、工具集成(外部工具调用)、响应生成(内容编排)和输出交付。关键特性包括实时数据访问、多工具并行调用、安全沙箱机制和高效响应(目标延迟<5秒)。文档详细描述了各阶段组件、数据流转和异常处理机制,强调系统的高效性(Kubernetes容器化部署)和安全性(多层安全检测与合规要求)。整体架构支持多模态输入处理
2026-01-14 15:47:46
854
原创 大模型(AI)2026年第一次测试:数数字0个数
摘要:一项AI测试中,研究人员让主流AI模型(豆包、ChatGPT、DeepSeek、Claude、Gemini、Grok)数一个包含1+91个0的数字串中的0的数量。测试结果显示,除Grok外,其他所有AI模型都给出了错误答案。该测试于2026年1月14日进行,附有各AI的错误回答截图作为证据。(149字)
2026-01-14 10:45:52
382
原创 循环神经网络与文本处理:序列到序列学习(seq2seq)
本文介绍了序列到序列学习(seq2seq)的基本原理与实现方法。seq2seq模型采用编码器-解码器架构,通过循环神经网络将可变长度输入序列编码为固定形状的上下文变量,再基于该变量生成输出序列。编码器使用多层GRU处理输入序列,最终隐状态作为解码器的初始状态;解码器在每个时间步结合上下文变量和已生成序列预测下一个词元。文章详细阐述了编码器和解码器的实现过程,包括嵌入层、GRU网络结构以及状态传递机制,并提供了PyTorch实现代码。该模型可应用于机器翻译等序列转换任务,通过端到端训练实现输入序列到输出序列的
2026-01-13 17:50:31
714
原创 循环神经网络与文本处理:编码器-解码器架构及其应用
本文介绍了编码器-解码器架构的基本原理及其在序列转换任务(如机器翻译)中的应用。该架构由编码器和解码器两部分组成:编码器将可变长度输入序列转换为固定形状的编码状态,解码器则将该状态映射回可变长度输出序列。文章提供了Python接口实现,包括Encoder基类、Decoder基类以及整合两者的EncoderDecoder类,为后续基于循环神经网络的序列转换模型实现奠定了基础。这种架构能有效处理输入输出序列长度不匹配的问题。
2026-01-13 16:53:11
252
原创 循环神经网络与文本处理:隐马尔可夫模型与双向模型的动态规划技术
本文介绍了双向循环神经网络及其理论基础。首先通过文本填空任务说明了上下文信息对序列建模的重要性,引出隐马尔可夫模型(HMM)的动态规划解法,包括前向递归和后向递归的计算过程。然后提出双向循环神经网络(BiRNN)架构,该网络同时包含前向和后向传播的隐藏层,能够更好地捕捉序列的上下文信息。文章详细阐述了双向神经网络的定义和前向/反向隐状态的更新公式,指出其与HMM动态规划的相似之处,同时强调深度学习模型更注重通用性而非统计解释。这种结合前后向信息的网络设计在NLP等序列处理任务中具有重要应用价值。
2026-01-13 16:36:20
886
原创 循环神经网络与文本处理:深度循环神经网络的实现与应用
本文介绍了深度循环神经网络(D-RNN)的基本原理与实现。主要内容包括:1) D-RNN的函数依赖关系,通过堆叠多层隐藏层构建灵活的网络结构,每层隐状态传递到下一时间步和下一层;2) 简洁实现方法,使用高级API快速构建多层LSTM网络;3) 详细展示了从本地加载时间机器数据集、构建词汇表到生成训练批量的完整流程。关键公式包括多层隐状态计算(公式1)和输出层计算(公式2)。通过调整隐藏层数和单元数等超参数,可构建不同深度的RNN网络,并替换为GRU或LSTM单元实现变体。
2026-01-13 14:18:50
773
原创 循环神经网络与文本处理:LSTM网络理论与实践
本文介绍了长短期记忆网络(LSTM)的核心原理与实现方法。LSTM通过引入记忆元和门控机制解决了传统RNN长期依赖问题,包含输入门、遗忘门和输出门三个关键组件。文章详细阐述了LSTM的数学表达和计算流程,包括候选记忆元生成、记忆元更新和隐状态计算过程。最后提供了从零实现LSTM的代码框架,包括数据集加载、分词处理和词汇表构建等预处理步骤。LSTM相比GRU具有更复杂的结构但能更有效地处理长序列数据,是深度学习处理时序任务的重要模型。
2026-01-13 11:33:43
539
原创 循环神经网络与文本处理:门控循环神经网络-捕获序列依赖性的艺术
摘要 门控循环单元(GRU)是一种改进的循环神经网络,通过引入重置门和更新门机制,有效解决了长序列依赖问题。重置门控制过去信息的保留程度,有助于捕获短期依赖;更新门决定新旧状态的混合比例,有利于捕捉长期依赖。GRU相比传统RNN能更好地处理梯度消失问题,计算效率也高于LSTM。课程内容包括GRU的工作原理、数学表达式以及从零开始的实现方法,使用时间机器数据集进行实践。关键点在于:1)门控机制的可学习性;2)候选隐状态的计算;3)新旧状态的动态组合。
2026-01-13 11:07:10
914
原创 循环神经网络与文本处理:序列模型反向传播与应用
本文深入探讨了序列模型中通过时间反向传播(BPTT)的数学原理和实现细节。主要内容包括:1) 循环神经网络梯度分析的数学推导,揭示了隐状态对参数梯度的递归依赖关系;2) 三种梯度计算策略的比较(完全计算、常规截断和随机截断),分析了各自优缺点;3) 具体展示了BPTT的实现过程,包括计算图构建和参数梯度推导。研究指出,常规截断方法在实践中效果最佳,能在计算效率和模型稳定性之间取得平衡。该技术为处理长序列数据提供了重要理论基础,是深度学习领域的关键算法之一。fan
2026-01-13 09:19:25
1012
原创 循环神经网络与文本处理:循环神经网络的高级API实现与优化
本文介绍了循环神经网络(RNN)的简洁实现方法,使用深度学习框架高级API完成语言模型构建。主要内容包括:1)安装必要依赖包并导入相关库;2)获取和预处理时间机器数据集,包括数据加载、分词、构建词汇表;3)定义两种数据迭代器(随机采样和顺序分区)生成训练小批量;4)通过高级API实现RNN层,简化模型定义流程。相比传统实现,该方法能有效降低代码复杂度,并在困惑度指标上获得优化。课程目标为掌握RNN的简洁实现步骤,重点学习数据预处理、模型构建和训练预测全流程。
2026-01-12 17:45:52
674
原创 循环神经网络与文本处理:循环神经网络与字符级语言模型实践
本文介绍了从零开始实现循环神经网络(RNN)的方法,重点讲解了字符级语言模型的构建步骤。内容包括:1)环境配置与依赖安装;2)使用昇腾NPU设备进行训练;3)本地数据集加载与预处理方法,包括分词、词汇表构建等;4)两种数据采样策略(随机采样和顺序分区)的实现;5)序列数据加载器的设计。课程采用H.G.Wells的《时间机器》作为训练数据集,通过完整的代码实现展示了RNN模型从数据准备到训练预测的全过程。
2026-01-12 17:22:26
677
原创 flux文生图或文生视频体验总结
摘要:初次接触FLUX在线图像视频生成平台,发现新用户注册仅获40积分,而所有功能至少需要100积分才能体验。文生视频和文生图片功能均无法使用,40积分完全不够。对产品体验极差,认为其新用户门槛过高,必须充值才能使用,远不如其他免费工具。最终选择注销账号,表示再也不会使用FLUX平台。
2026-01-12 15:38:03
108
原创 循环神经网络与文本处理:循环神经网络与序列数据处理
本文介绍了循环神经网络(RNN)的基本原理和应用。首先对比了无隐状态的多层感知机和有隐状态的RNN,重点阐述了RNN通过引入隐状态保留序列历史信息的特性。其次讲解了基于RNN的字符级语言模型,展示了如何利用当前和先前字符预测下一个字符。最后介绍了评估语言模型质量的困惑度指标,该指标通过计算序列交叉熵损失的平均值来衡量模型预测准确性。文章通过数学公式和代码示例详细说明了RNN的核心计算过程,为理解序列数据处理提供了理论基础。
2026-01-12 14:06:26
814
原创 循环神经网络与文本处理:自然语言处理中的语言模型与技术
本课程介绍了语言模型在自然语言处理中的核心概念和应用。主要内容包括: 语言模型的目标是估计文本序列的联合概率,用于生成自然文本和解决语音识别歧义等问题。 介绍了n元语法模型(一元、二元、三元)及其在处理长序列时的局限性。 讲解了自然语言统计方法,包括词频统计和拉普拉斯平滑技术,用于处理低频词组合。 通过"时光机器"数据集展示了实际文本预处理过程,包括分词和词频统计。 讨论了马尔可夫模型在语言建模中的应用,以及不同阶数马尔可夫性质对序列建模的影响。
2026-01-12 11:36:10
713
原创 循环神经网络与文本处理:文本预处理基础与实践
摘要 本课程介绍了文本预处理的基本步骤,主要包括: 文本加载:从文件读取文本数据并转换为字符串列表 词元化:将文本拆分为单词或字符级别的词元 构建词表:统计词频并建立词元到数字索引的映射 转换序列:将文本转换为数字索引序列 通过示例代码展示了如何对《时光机器》文本数据进行预处理,包括实现词元化函数、构建Vocab类统计词频,并最终将文本转换为数字索引序列。预处理后的数据可以直接用于模型训练。课程重点介绍了字符级别的词元化方法,并提供了完整的预处理流程实现。
2026-01-12 10:14:06
883
原创 NVIDIA Omniverse元宇宙平台
NVIDIA Omniverse是一个开放式数字孪生协作平台,基于OpenUSD标准实现3D软件互通,融合RTX渲染和生成式AI技术,支持跨团队实时协作与高精度仿真。与CUDA不同,Omniverse是上层应用平台,面向设计师和工程师;而CUDA是底层GPU并行计算架构,为Omniverse等应用提供算力基础。二者协同工作,Omniverse依赖CUDA实现高性能渲染和仿真,共同推动工业数字化和元宇宙发展。Omniverse是连接物理与虚拟世界的强大工具,也是AI进化的重要阶梯。
2026-01-12 09:38:11
1577
原创 循环神经网络与文本处理:序列预测与模型分析
本文介绍了序列预测模型的基本概念和应用。主要内容包括:1)序列数据的特性分析,通过电影评分案例说明时间动态性对预测的重要性;2)统计工具部分讲解了自回归模型和隐变量自回归模型,以及马尔可夫模型的应用;3)阐述了因果关系在序列预测中的关键作用;4)通过正弦波加噪声的实例演示了序列预测模型的训练过程。文章指出,随着预测步长增加,误差会快速累积导致预测质量下降,这是序列预测面临的主要挑战。这些内容为理解时间序列分析和构建预测模型提供了理论基础和实践指导。
2026-01-09 11:11:45
782
原创 循环神经网络与文本处理
本文系统介绍了循环神经网络在文本处理中的应用。内容涵盖序列预测、文本预处理、语言模型等基础知识,以及RNN、LSTM、门控RNN等核心网络结构。详细讲解了字符级语言模型实践、高级API实现优化、序列反向传播等技术要点。同时探讨了深度RNN、隐马尔可夫模型、双向模型以及编码器-解码器架构等高级主题,包括seq2seq学习等前沿应用,为自然语言处理领域提供了全面的技术框架和实践指导。
2026-01-09 10:56:58
427
原创 卷积神经网络深度探索:稠密连接网络(DenseNet)原理与实践
摘要 DenseNet是ResNet的扩展,通过稠密连接(通道维度上的连接而非相加)实现更深层网络的信息流动。其核心由稠密块和过渡层组成:稠密块包含多个卷积层,每层输出都与前面所有层的输出相连;过渡层则通过1×1卷积和平均池化控制模型复杂度。相比ResNet,DenseNet能更高效地利用特征,减少参数数量。实验表明,在适当简化输入尺寸后,DenseNet能取得良好的训练效果。该网络结构特别适用于需要深层特征提取的视觉任务。
2026-01-09 10:29:53
896
原创 卷积神经网络深度探索:深度学习之残差网络与嵌套函数
摘要 残差网络(ResNet)通过引入残差块结构解决了深层神经网络训练困难的问题。其核心思想是让网络学习残差映射而非直接映射,通过跨层连接使输入可直接传递到后续层。相比传统网络,ResNet具有以下优势:1) 残差映射更易优化;2) 可实现恒等映射;3) 避免梯度消失。实验表明,ResNet在ImageNet等任务上表现优异,成为深度学习的里程碑式架构。本课程详细讲解了残差块设计原理、网络结构实现及其训练方法。
2026-01-08 17:44:04
772
原创 Vibe Coding简介
范式转变:从“写代码”到“说需求、审结果、调方向”,LLM负责语法实现与基础逻辑,人聚焦产品目标与体验。核心流程:自然语言描述→AI生成代码→执行验证→反馈迭代→确认交付,可“纯Vibe”(快速原型)或“负责任AI辅助”(审查与测试)。理念定位:“先编码、后优化”,优先实验与快速验证,适合早期原型与创意探索。本清单适配快速原型→生产交付全流程,平衡AI驱动效率与代码质量,可直接嵌入敏捷开发环节。意图明确+边界清晰+验收标准量化基础版(原型/工具类)
2026-01-08 09:26:55
1707
原创 卷积神经网络深度探索:批量规范化在神经网络中的应用与实践
摘要 本课程介绍了批量规范化(Batch Normalization)技术,用于加速深层神经网络的训练收敛。批量规范化通过标准化每层输入数据(减去均值、除以标准差)并加入可学习的缩放和偏移参数,解决了中间层变量分布偏移问题。该方法在全连接层和卷积层中有不同实现方式,并区分训练模式(使用小批量统计)和预测模式(使用全局统计)。批量规范化能提高模型稳定性,具有正则化效果,是训练深层网络的重要技术。
2026-01-07 17:45:52
683
原创 开发语言全维度整合资料
编程语言发展与应用全景摘要 本文系统梳理了编程语言的演进历程和现代应用场景。语言发展树以时间轴和谱系关系为主线,涵盖从早期机器语言到新兴语言Mojo的全貌,包括四大分支:编译型语言、脚本语言、函数式语言和新兴语言。应用对比表详细分析了20+主流语言/框架的适用领域、优劣势及代表工具,如C/C++适合系统开发,Python主导AI领域,React/Vue/Angular构成前端三大框架。选型决策树提供结构化选择路径,通过"性能→场景→生态"的递进逻辑,帮助开发者根据项目需求(如云原生、移动
2026-01-07 16:32:01
1183
原创 卷积神经网络深度探索:GoogLeNet架构与Inception块原理及应用
GoogLeNet是2014年ImageNet竞赛的冠军模型,其核心创新在于Inception块设计。Inception块采用四条并行路径:1×1、3×3、5×5卷积层和3×3最大池化层,通过不同尺寸卷积核提取多尺度特征。该架构通过1×1卷积降低通道数来减少计算量,并在通道维度上拼接各路径输出。整个网络由9个Inception块堆叠而成,配合最大池化降维和全局平均池化替代全连接层,在保持高性能的同时降低了模型复杂度。本课程将带您实现简化版GoogLeNet,理解其通过并行结构组合不同感受野的优势。
2026-01-07 15:08:45
550
【Python科学计算】Anaconda基础教程:从安装到高级技巧及环境管理详解文档所属领域(
2025-05-28
【数据科学与机器学习】Anaconda基础教程及使用案例:涵盖环境管理、包管理及多领域项目实践
2025-05-28
软件工程UML图元素符号详解:类图、用例图、活动图及状态图符号图例与应用对比
2025-05-21
Hadoop Impala connect hive2 jdbc related
2018-05-24
AndroidFailedtoallocatememory8错误提示的原因及解决办法
2014-08-28
hive service
2018-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅