- 博客(741)
- 资源 (13)
- 收藏
- 关注
原创 【深度学习解惑】结合神经网络结构剪枝或知识蒸馏,能否把 Inception 精剪到 mobile‑friendly 仍保持精度?
结合神经网络结构剪枝或知识蒸馏,能否把 Inception 精剪到 mobile‑friendly 仍保持精度?
2025-06-11 14:48:03
447
原创 【深度学习解惑】在少样本(Few‑Shot)场景下,Inception 的多尺度特征会不会天然有优势?如何验证?
在少样本(Few‑Shot)场景下,Inception 的多尺度特征会不会天然有优势?如何验证?
2025-06-11 13:15:28
749
原创 【深度学习解惑】NAS(神经架构搜索)是否能自动发现 Inception 类似的多分支结构?已有哪些工作验证?
NAS(神经架构搜索)是否能自动发现 Inception 类似的多分支结构?已有哪些工作验证?
2025-06-10 21:10:17
790
原创 【深度学习解惑】如何将自注意力(Self‑Attention/Transformer Block)嵌入 Inception,是否仍需并行多尺度?
如何将自注意力(Self‑Attention/Transformer Block)嵌入 Inception,是否仍需并行多尺度?
2025-06-10 21:00:59
456
原创 【深度学习解惑】为了缩短推理时延,可以把 1×1+3×3 并行改写成分组卷积吗?有何利弊?
为了缩短推理时延,可以把 1×1+3×3 并行改写成分组卷积吗?有何利弊?
2025-06-07 10:52:01
775
原创 【深度学习解惑】Inception‑based 特征在检索/检测任务里常用作 backbone,和 ResNet backbone 调整 anchor/grid 时要注意什么?
Inception‑based 特征在检索/检测任务里常用作 backbone,和 ResNet backbone 调整 anchor/grid 时要注意什么?
2025-06-07 10:48:39
802
原创 【深度学习解惑】 在 PyTorch 中 DataParallel vs. DistributedDataParallel 对 Inception 有哪些细节坑?
在Inception架构中,DDP相比DP具有显著的性能优势和技术合理性。实验表明,通过适当的同步批归一化和通信优化,DDP可实现近线性的扩展效率。建议后续研究关注动态图结构下的自适应并行策略,以进一步提升复杂网络架构的训练效率。
2025-06-03 17:39:44
970
原创 【深度学习解惑】在 TensorFlow/Keras 中复现 Inception v1 时,怎样确认与原论文参数一一对应?
在 TensorFlow/Keras 中复现 Inception v1 时,怎样确认与原论文参数一一对应?
2025-06-03 17:36:56
342
原创 【深度学习解惑】如果要把 Inception 部署到移动端 TensorFlow Lite,应重点关注哪些算子?
如果要把 Inception 部署到移动端 TensorFlow Lite,应重点关注哪些算子?
2025-06-03 17:33:48
826
原创 【深度学习解惑】如何用 NetDissect/Network Slimming 判断,哪些 Inception 分支最可裁剪?
如何用 NetDissect/Network Slimming 判断,哪些 Inception 分支最可裁剪?
2025-05-29 17:50:43
641
原创 【深度学习解惑】 Inception网络如果发现某些类别被 5×5 分支高度激活而 3×3 分支几乎不激活,可能意味着什么?
Inception网络如果发现某些类别被 5×5 分支高度激活而 3×3 分支几乎不激活,可能意味着什么?
2025-05-29 17:45:46
638
原创 【深度学习解惑】Inception 并行分支是否能自然对齐“局部 vs. 全局”特征?用可视化举例说明
Inception 并行分支是否能自然对齐“局部 vs. 全局”特征?用可视化举例说明
2025-05-29 17:42:50
838
原创 【深度学习解惑】卷积神经网络在 1×1 卷积之前后分别做一次特征分布可视化,可以得到什么洞见?
卷积神经网络在 1×1 卷积之前后分别做一次特征分布可视化,可以得到什么洞见?
2025-05-26 07:55:53
949
原创 【深度学习解惑】使用 Grad‑CAM 可视化 Inception 输出热图时,应该选哪一支路的特征图?为什么?
使用 Grad‑CAM 可视化 Inception 输出热图时,应该选哪一支路的特征图?为什么?
2025-05-26 07:52:28
1269
原创 【深度学习解惑】EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?
EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?
2025-05-20 08:34:04
593
原创 【深度学习解惑】MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?
MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?
2025-05-20 08:21:52
634
原创 【深度学习解惑】Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?
Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?
2025-05-20 08:20:07
765
原创 【深度学习解惑】Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?
Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?
2025-05-18 22:32:24
754
原创 【深度学习解惑】简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?
简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?
2025-05-18 22:28:38
650
原创 【深度学习解惑】如果 GPU 计算资源非常有限,用 Inception v1 vs. ResNet‑50 哪个更合适,为什么?
在GPU计算资源受限的环境下,Inception v1展现出显著优势:显存占用减少65%训练速度提升2.4倍推理延迟降低58%建议开发者在显存小于12GB时优先考虑Inception v1架构,并通过模型压缩和量化技术进一步优化性能。
2025-05-16 07:49:08
757
原创 【深度学习解惑】将 Inception 与 Mixup/Label‑Smoothing 等正则手段结合时,需要对 auxiliary head 做哪些调整?
在 Inception 中结合 Mixup/Label-Smoothing 时,需确保主头与辅助头的标签分布、损失函数和梯度传播逻辑一致,并通过实验验证参数敏感性。代码实现需显式处理混合标签在辅助头的传播
2025-05-16 07:40:08
952
原创 【深度学习解惑】分析 Inception 特有的并行分支对显存占用、GPU 利用率的正负影响?
Inception架构通过并行分支设计实现了多尺度特征提取,显著提升了模型性能,但也带来了显存占用和GPU利用率方面的挑战。文章从显存占用和GPU利用率两个维度进行了深入分析:一方面,并行分支导致激活值显存膨胀,但通过1x1卷积降维和参数共享可以部分缓解;另一方面,分支间的计算负载不均衡和同步开销降低了GPU利用率。实验验证了Inception模块的显存占用和GPU利用率,并提出了动态分支剪枝和硬件感知的模型设计等优化建议。未来研究应注重算法与硬件的协同优化,以在提升模型性能的同时,有效管理显存和计算资源。
2025-05-15 14:00:52
1201
原创 【深度学习解惑】GoogLeNet 在 ImageNet 训练时使用了何种学习率衰减方案?如果改用 Cosine Decay 可能产生什么现象?
原始策略: Step Decay 简单但需调参,适合计算资源有限场景。Cosine Decay: 更鲁棒,可能提升精度,推荐配合 Warmup 使用。实验建议: 在验证集上对比两种策略的损失曲线和最终精度。
2025-05-15 13:51:58
882
原创 【深度学习解惑】Auxiliary loss 对主网络的收敛曲线有何影响?
辅助损失通过多机制协同作用显著影响主网络收敛曲线:初期加速下降(梯度补偿)、中期稳定优化(正则化)、后期提升泛化(表示学习)。合理设计的辅助损失可实现20-30%的训练效率提升,是现代架构设计的重要工具。未来研究应关注动态调整机制与理论解释的深化
2025-05-12 19:40:23
997
原创 【深度学习解惑】 为什么在 Inception v3 之后引入了分解卷积(Factorized Convolution)?举例说明 7×7 → 1×7+7×1 的好处。
Inception v3 的卷积分解策略是一种经典的结构优化手段。它通过降低计算复杂度、提升非线性建模能力,成功实现了更高效、更易训练的网络架构,影响了后续 MobileNet、EfficientNet 等网络的设计思路。
2025-05-12 19:36:48
675
原创 【深度学习解惑】Inception 模块的并行支路在训练时如何同步计算图梯度?
本文详细解析了Inception模块中并行支路的梯度同步机制,涵盖理论原理、PyTorch实现代码及优化建议。
2025-05-11 18:44:53
309
原创 【深度学习解惑】BN(BatchNorm)未出现在Inception v1 的原始论文中,如果现在给 v1 加 BN,应如何插入最合适?
虽然 Inception v1(GoogLeNet, 2014)原始论文没有使用 BN,但现在添加是完全合理且推荐的,可以提升训练稳定性、收敛速度甚至模型性能。BN 最合理的插入点是:卷积层(Conv)之后,激活函数(ReLU)之前。
2025-05-11 18:42:02
330
原创 【深度学习解惑】 Inception结构中如果把 5×5 卷积拆成两个串联的 3×3,理论上会带来哪些好处与坏处?
将5×5卷积拆分为两个3×3卷积显著降低了参数量和计算量,同时增强了非线性表达能力。需注意中间通道数的设置和优化策略,未来可结合动态网络与自动化搜索技术进一步优化。
2025-05-08 08:54:45
1241
原创 【深度学习解惑】Inception 对输入通道数做了哪几种维度减小策略?如何避免信息损失?
Inception 模块的成功不仅在于其并行结构,更体现在其对通道维度控制的精妙设计。降维并非一味压缩,而是对信息进行有选择性的提取与保留。
2025-05-08 08:04:36
1148
原创 【深度学习解惑】为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?
为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?
2025-05-05 16:50:54
647
原创 【深度学习解惑】Inception v1 使用了几层(几级)Inception 模块?每一级的输出尺寸如何变化?
Inception v1 使用了几层(几级)Inception 模块?每一级的输出尺寸如何变化?
2025-05-05 16:40:50
1128
原创 【深度学习解惑】GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?
GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?
2025-05-05 16:36:37
380
原创 【深度学习解惑】Inception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?
nception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?
2025-05-04 22:37:31
889
原创 【大模型开发解惑】大模型部署后,如何在用户反馈数据和增量数据上进行在线微调或增量训练?
本文系统梳理了大模型在线微调与增量训练的理论、技术与实践。从基于梯度累积与PEFT的参数高效更新,到流式训练与联邦学习的隐私保护架构,再到性能评估与未来研究方向,均提供了落地案例与代码。希望本文能为学术与工程实践提供完整参考,助力持续学习系统在工业界加速落地。
2025-05-02 23:20:05
1053
原创 【大模型开发解惑】针对 Qwen2‑VL 系列,如何同时微调视觉和语言模块?
多模态大模型(MLLM)的轻量级调优范式迅速成熟,Qwen2-VL 系列已在 Hugging Face 提供完整权重和工具链,可通过 LoRA/QLoRA 等参数高效微调方法同时更新视觉与语言分支。在整理国内外最新实践后,下面给出一套端到端同时细调视觉 + 语言模块的实战方案,附完整代码骨架、典型案例、以及面向下一代 Qwen-VL 的前瞻建议。
2025-05-01 18:46:41
788
原创 【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?
大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?
2025-04-30 07:38:04
1242
糖尿病数据集
2024-02-12
搜狗用户画像数据集
2024-02-12
危险驾驶行为图像数据集-开车电话-喝水等
2024-02-12
电影评分数据集-用于电影推荐系统
2024-02-12
葡萄酒数据集
2024-02-12
住房信息数据集
2024-02-12
泰坦尼克号数据集
2024-02-12
商铺logo图像集
2024-02-12
美国联邦选举委员会-政治竞选赞助方面的数据集
2024-02-12
乳腺癌数据集.zip
2024-02-12
开车打手机图像数据集.zip
2024-02-12
电商网站销售数据
2024-02-12
阿里真实用户-商品行为数据-推荐系统
2024-02-12
PaddleOCR文字识别的完整代码
2025-02-21
论文:DeepSeek-V3 Technical Report
2025-02-21
论文:DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence
2025-02-21
论文细节:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
2025-02-21
论文细节:DeepSeek LLM Scaling Open-Source Language Models with Longtermism
2025-02-21
论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025-02-21
用于安全带检测的车内驾驶安全带图像
2024-06-30
深度学习-人脸卡通化-实现代码
2024-02-16
深度学习-目标检测-人头数据集001
2024-02-12
深度学习-目标检测-人头数据集002
2024-02-12
深度学习-目标检测-密集人头检测数据集001
2024-02-12
深度学习-目标检测-密集人头检测数据集002
2024-02-12
深度学习-表情识别-人脸表情数据集001
2024-02-12
深度学习-表情识别-人脸表情数据集002
2024-02-12
各种室内场景图像集001
2024-02-12
各种室内场景图像集002
2024-02-12
各种室内场景图像集003
2024-02-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人