深度学习_云博士的AI课堂的博客-CSDN博客

深度学习

关注

文章平均质量分 91

关注数：文章数：201 文章阅读量：191452 文章收藏量：3434

作者: 云博士的AI课堂

前华为数据科学家/高级软件工程师/项目主管，哈佛大学高级访问学者/博后，浙江大学计算机专业博士，德国包豪斯大学媒体学院高级访问学者/博后，人工智能与计算机视觉行业专家，AI技术实践超20年。

展开

【深度学习解惑】EfficientNet 用复合缩放统一了网络深度、宽度、分辨率，与 Inception 的多尺度思想有何联系？

EfficientNet 用复合缩放统一了网络深度、宽度、分辨率，与 Inception 的多尺度思想有何联系？

原创 2025-05-20 08:34:04 · 372 阅读 · 0 评论
【深度学习解惑】MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception？为什么？

MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception？为什么？

原创 2025-05-20 08:21:52 · 448 阅读 · 0 评论
【深度学习解惑】Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同？

Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同？

原创 2025-05-20 08:20:07 · 569 阅读 · 0 评论
【深度学习解惑】Inception‑V4 把残差引入模块有什么好处？与 ResNet 直接堆叠残差有什么本质差别？

Inception‑V4 把残差引入模块有什么好处？与 ResNet 直接堆叠残差有什么本质差别？

原创 2025-05-18 22:32:24 · 634 阅读 · 0 评论
【深度学习解惑】简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线，各自核心创新是什么？

简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线，各自核心创新是什么？

原创 2025-05-18 22:28:38 · 527 阅读 · 0 评论
【深度学习解惑】如果 GPU 计算资源非常有限，用 Inception v1 vs. ResNet‑50 哪个更合适，为什么？

在GPU计算资源受限的环境下，Inception v1展现出显著优势：显存占用减少65%训练速度提升2.4倍推理延迟降低58%建议开发者在显存小于12GB时优先考虑Inception v1架构，并通过模型压缩和量化技术进一步优化性能。

原创 2025-05-16 07:49:08 · 738 阅读 · 0 评论
【深度学习解惑】将 Inception 与 Mixup/Label‑Smoothing 等正则手段结合时，需要对 auxiliary head 做哪些调整？

在 Inception 中结合 Mixup/Label-Smoothing 时，需确保主头与辅助头的标签分布、损失函数和梯度传播逻辑一致，并通过实验验证参数敏感性。代码实现需显式处理混合标签在辅助头的传播

原创 2025-05-16 07:40:08 · 923 阅读 · 0 评论
【深度学习解惑】分析 Inception 特有的并行分支对显存占用、GPU 利用率的正负影响？

Inception架构通过并行分支设计实现了多尺度特征提取，显著提升了模型性能，但也带来了显存占用和GPU利用率方面的挑战。文章从显存占用和GPU利用率两个维度进行了深入分析：一方面，并行分支导致激活值显存膨胀，但通过1x1卷积降维和参数共享可以部分缓解；另一方面，分支间的计算负载不均衡和同步开销降低了GPU利用率。实验验证了Inception模块的显存占用和GPU利用率，并提出了动态分支剪枝和硬件感知的模型设计等优化建议。未来研究应注重算法与硬件的协同优化，以在提升模型性能的同时，有效管理显存和计算资源。

原创 2025-05-15 14:00:52 · 1187 阅读 · 0 评论
【深度学习解惑】GoogLeNet 在 ImageNet 训练时使用了何种学习率衰减方案？如果改用 Cosine Decay 可能产生什么现象？

原始策略: Step Decay 简单但需调参，适合计算资源有限场景。Cosine Decay: 更鲁棒，可能提升精度，推荐配合 Warmup 使用。实验建议: 在验证集上对比两种策略的损失曲线和最终精度。

原创 2025-05-15 13:51:58 · 863 阅读 · 0 评论
【深度学习解惑】Auxiliary loss 对主网络的收敛曲线有何影响？

辅助损失通过多机制协同作用显著影响主网络收敛曲线：初期加速下降（梯度补偿）、中期稳定优化（正则化）、后期提升泛化（表示学习）。合理设计的辅助损失可实现20-30%的训练效率提升，是现代架构设计的重要工具。未来研究应关注动态调整机制与理论解释的深化

原创 2025-05-12 19:40:23 · 963 阅读 · 0 评论
【深度学习解惑】为什么在 Inception v3 之后引入了分解卷积（Factorized Convolution）？举例说明 7×7 → 1×7+7×1 的好处。

Inception v3 的卷积分解策略是一种经典的结构优化手段。它通过降低计算复杂度、提升非线性建模能力，成功实现了更高效、更易训练的网络架构，影响了后续 MobileNet、EfficientNet 等网络的设计思路。

原创 2025-05-12 19:36:48 · 668 阅读 · 0 评论
【深度学习解惑】Inception 模块的并行支路在训练时如何同步计算图梯度？

本文详细解析了Inception模块中并行支路的梯度同步机制，涵盖理论原理、PyTorch实现代码及优化建议。

原创 2025-05-11 18:44:53 · 304 阅读 · 0 评论
【深度学习解惑】BN（BatchNorm）未出现在Inception v1 的原始论文中，如果现在给 v1 加 BN，应如何插入最合适？

虽然 Inception v1（GoogLeNet, 2014）原始论文没有使用 BN，但现在添加是完全合理且推荐的，可以提升训练稳定性、收敛速度甚至模型性能。BN 最合理的插入点是：卷积层（Conv）之后，激活函数（ReLU）之前。

原创 2025-05-11 18:42:02 · 321 阅读 · 0 评论
【深度学习解惑】 Inception结构中如果把 5×5 卷积拆成两个串联的 3×3，理论上会带来哪些好处与坏处？

将5×5卷积拆分为两个3×3卷积显著降低了参数量和计算量，同时增强了非线性表达能力。需注意中间通道数的设置和优化策略，未来可结合动态网络与自动化搜索技术进一步优化。

原创 2025-05-08 08:54:45 · 1235 阅读 · 0 评论
【深度学习解惑】Inception 对输入通道数做了哪几种维度减小策略？如何避免信息损失？

Inception 模块的成功不仅在于其并行结构，更体现在其对通道维度控制的精妙设计。降维并非一味压缩，而是对信息进行有选择性的提取与保留。

原创 2025-05-08 08:04:36 · 1135 阅读 · 0 评论
【深度学习解惑】为什么 Inception v1 需要两个 auxiliary classifier？它们分别接在哪里、起到什么作用？

为什么 Inception v1 需要两个 auxiliary classifier？它们分别接在哪里、起到什么作用？

原创 2025-05-05 16:50:54 · 637 阅读 · 0 评论
【深度学习解惑】GoogLeNet 相比传统 VGG-16，参数量减少了多少数量级？其主要“省参数”手段是什么？

GoogLeNet 相比传统 VGG-16，参数量减少了多少数量级？其主要“省参数”手段是什么？

原创 2025-05-05 16:36:37 · 357 阅读 · 0 评论
【深度学习解惑】1×1 卷积在 Inception 中扮演了哪些角色？

1×1 卷积在 Inception 中扮演了哪些角色？

原创 2025-05-04 22:41:22 · 1017 阅读 · 0 评论
【深度学习解惑】Inception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行？

nception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行？

原创 2025-05-04 22:37:31 · 867 阅读 · 0 评论
【大模型开发解惑】大模型部署后，如何在用户反馈数据和增量数据上进行在线微调或增量训练？

本文系统梳理了大模型在线微调与增量训练的理论、技术与实践。从基于梯度累积与PEFT的参数高效更新，到流式训练与联邦学习的隐私保护架构，再到性能评估与未来研究方向，均提供了落地案例与代码。希望本文能为学术与工程实践提供完整参考，助力持续学习系统在工业界加速落地。

原创 2025-05-02 23:20:05 · 986 阅读 · 0 评论
【大模型开发解惑】大模型部署后，如何在本地持续收集用户反馈数据？

大模型部署后实际，如何在本地持续收集用户反馈数据？

原创 2025-05-02 23:06:10 · 1078 阅读 · 0 评论
【大模型开发解惑】针对Qwen2多模态模型，如何设置不同学习率并融合视觉特征？

基于Qwen2多模态模型的学习率设置与视觉特征融合方法实践

原创 2025-05-01 18:58:25 · 1138 阅读 · 0 评论
【大模型开发解惑】针对 Qwen2‑VL 系列，如何同时微调视觉和语言模块？

多模态大模型（MLLM）的轻量级调优范式迅速成熟，Qwen2-VL 系列已在 Hugging Face 提供完整权重和工具链，可通过 LoRA/QLoRA 等参数高效微调方法同时更新视觉与语言分支。在整理国内外最新实践后，下面给出一套端到端同时细调视觉 + 语言模块的实战方案，附完整代码骨架、典型案例、以及面向下一代 Qwen-VL 的前瞻建议。

原创 2025-05-01 18:46:41 · 750 阅读 · 0 评论
【大模型开发解惑】DeepSeek-R1 强化学习（RL）步骤与方法解析

以DeepSeek‑R1为例，强化学习（RL）步骤和方法

原创 2025-04-30 07:41:48 · 1048 阅读 · 0 评论
【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

原创 2025-04-30 07:38:04 · 1218 阅读 · 0 评论
【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

原创 2025-04-29 17:19:38 · 939 阅读 · 0 评论
【大模型实践解惑】Qwen 在 CoT（Chain‑of‑Thought）微调上的实践有哪些？

总结了 Qwen 系列模型在 CoT（Chain-of-Thought）微调上的最新进展、典型落地、可直接运行的代码骨架以及后续可优化方向。要点先览：Qwen-2/3 已原生支持 <think>…</think>“思考块”；社区主流做法是在此基础上用 LoRA + SFT 或 GRPO/DPO 强化推理能力，衍生出 TokenSkip（压缩思维链）、Speculative CoT（双模型推测）等高效框架。国内企业多把 Qwen-2.5/DeepSeek-R1-Qwen 用于数学推理、医学 QA、教育等场景

原创 2025-04-29 17:08:35 · 1178 阅读 · 0 评论
【大模型解惑】如何利用 Chain‑of‑Thought（CoT）提示和中间变量标注提升模型推理能力？

【大模型解惑】如何利用 Chain‑of‑Thought（CoT）提示和中间变量标注提升模型推理能力？

原创 2025-04-28 08:34:35 · 934 阅读 · 0 评论
【大模型解惑】大模型如何设计评估指标（准确率、F1、BLEU、ROUGE）并进行基准对比？与普通机器学习有何不同

【大模型解惑】大模型如何设计评估指标（准确率、F1、BLEU、ROUGE）并进行基准对比？与普通机器学习有何不同

原创 2025-04-28 08:32:35 · 829 阅读 · 0 评论
【大模型解惑】大模型如何划分训练、验证和测试集？和普通的机器学习有何不同

【大模型解惑】大模型如何划分训练、验证和测试集？和普通的机器学习有何不同

原创 2025-04-28 08:09:22 · 517 阅读 · 0 评论
【大模型解惑】大模型微调如何设置学习率、batch size、微调轮数、warm‑up、权重衰减等超参数？

在微调大语言模型（LLM）时，“学习率、批次大小、训练轮数、预热步数 (warm-up) 和权重衰减”这组超参数往往决定了效率与效果的上限。结合近两年国内外公开的最佳实践与论文报告，可以归纳出一套易落地的调参框架："先用经验区间做“粗Sweep”，再用自动化搜索（Optuna / Ax）做“细Sweep”，并按任务规模递增地启用 LoRA、Q-LoRA、ZeRO-3 或 Flash-Attention 等节省算力的技术。"下面给出完整文章内容，包括概念讲解、对比表、代码范例（以阿里 Qwen-14B 为例）

原创 2025-04-27 18:40:39 · 1242 阅读 · 0 评论
【大模型解惑】大模型超参数调优有哪些经验或自动化工具（如 Optuna）可用？

【大模型解惑】大模型超参数调优有哪些经验或自动化工具（如 Optuna）可用？

原创 2025-04-27 18:26:23 · 637 阅读 · 0 评论
【大模型解惑】Qwen全参数微调、LoRA、Q-LoRA 或 Adapter在参数更新量、训练速度和性能提升上有何差异？

关于全参数微调（Full Parameter Fine-Tuning）、LoRA（Low-Rank Adaptation）、Q-LoRA（Quantized Low-Rank Adaptation）和 Adapter 在参数更新量、训练速度和性能提升上的差异，以及如何在阿里Qwen的开源大模型上应用它们，下面是一个详细的文章目录提纲，并附上代码案例和解释。

原创 2025-04-27 18:19:53 · 1015 阅读 · 0 评论
【大模型解惑】DeepSeek等何时采用全参数微调、LoRA、Q-LoRA 或 Adapter？

【大模型解惑】DeepSeek等何时采用全参数微调、LoRA、Q-LoRA 或 Adapter？

原创 2025-04-27 18:16:17 · 629 阅读 · 0 评论
【大模型解惑】针对聊天、问答、代码生成等场景，如何清理、标注和格式化训练数据（JSONL、Prompt–Completion 对）？

针对聊天、问答、代码生成等场景，如何清理、标注和格式化训练数据（JSONL、Prompt–Completion 对）？

原创 2025-04-26 11:23:24 · 544 阅读 · 0 评论
【大模型解惑】如何将大模型部署纳入 CI/CD 流水线，实现自动化测试、部署与版本管理？

以下是一个将大模型部署整合到CI/CD流水线的详细方案，包含目录结构、核心流程说明及实际代码案例。内容涵盖自动化测试、容器化部署、版本管理以及持续交付的完整链路。

原创 2025-04-26 10:18:11 · 348 阅读 · 0 评论
【大模型解惑】在本地环境中如何确保大模型隔离、防止敏感数据泄露？如何使用 Docker、Kubernetes 或虚拟机加固部署？

本地大模型若直接接触企业知识或用户隐私，一旦容器越狱、网络外连或磁盘被窃取就可能泄露敏感数据。隔离思路是让模型“跑在盒子里、网在笼子里、数据全程加密”，并结合持续监控。下文先给出总体威胁模型与隔离层，然后分别给出 Docker、Kubernetes、虚拟机（含机密计算）三条加固路线，并附可复制的示例代码与 YAML。

原创 2025-04-24 21:19:22 · 899 阅读 · 0 评论
【大模型与机器学习解惑】机器学习里的 “提取特征” 跟数学里矩阵的特征值，特征向量以及特征矩阵是什么关系？

在机器学习中，“特征提取”（feature extraction）是指将原始数据映射为有助于模型学习的数值表示；而在线性代数里，“特征值”“特征向量”及“特征矩阵”则刻画矩阵的内在性质。二者在 PCA、谱聚类等算法中交汇：ML 用特征值分解来寻找数据的主方向，但其“特征”本身各有不同的含义和作用。下文将系统对比二者的概念、联系和区别，并辅以 Python 代码示例帮助理解。

原创 2025-04-24 11:26:36 · 1086 阅读 · 0 评论
【大模型解惑】如何集成 New Relic AI 或自建监控方案，对本地部署的模型推理延迟、内存使用、吞吐量进行实时监控？

如何集成 New Relic AI 或自建监控方案，对本地部署的模型推理延迟、内存使用、吞吐量进行实时监控？

原创 2025-04-23 23:28:44 · 583 阅读 · 0 评论
【大模型解惑】对比 Ollama、llama.cpp、vLLM、BentoML、TGI（Text Generation Inference）等部署框架的优缺点及适用场景？

Ollama、llama.cpp、vLLM、BentoML 和 TGI (Text Generation Inference) 都是近两年出现的主流大模型部署/推理框架。它们在平台定位、依赖栈、吞吐延迟优化与运维便利度上侧重不同，适合的硬件环境与业务规模也不一样。下面按「关键特性 → 优劣 → 典型场景」结构作系统对比。

原创 2025-04-23 23:26:07 · 724 阅读 · 0 评论

深度学习

作者: 云博士的AI课堂

【深度学习解惑】EfficientNet 用复合缩放统一了网络深度、宽度、分辨率，与 Inception 的多尺度思想有何联系？

【深度学习解惑】MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception？为什么？

【深度学习解惑】Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同？

【深度学习解惑】Inception‑V4 把残差引入模块有什么好处？与 ResNet 直接堆叠残差有什么本质差别？

【深度学习解惑】简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线，各自核心创新是什么？

【深度学习解惑】如果 GPU 计算资源非常有限，用 Inception v1 vs. ResNet‑50 哪个更合适，为什么？

【深度学习解惑】将 Inception 与 Mixup/Label‑Smoothing 等正则手段结合时，需要对 auxiliary head 做哪些调整？

【深度学习解惑】分析 Inception 特有的并行分支对显存占用、GPU 利用率的正负影响？

【深度学习解惑】GoogLeNet 在 ImageNet 训练时使用了何种学习率衰减方案？如果改用 Cosine Decay 可能产生什么现象？

【深度学习解惑】Auxiliary loss 对主网络的收敛曲线有何影响？

【深度学习解惑】 为什么在 Inception v3 之后引入了分解卷积（Factorized Convolution）？举例说明 7×7 → 1×7+7×1 的好处。

【深度学习解惑】Inception 模块的并行支路在训练时如何同步计算图梯度？

【深度学习解惑】BN（BatchNorm）未出现在Inception v1 的原始论文中，如果现在给 v1 加 BN，应如何插入最合适？

【深度学习解惑】 Inception结构中如果把 5×5 卷积拆成两个串联的 3×3，理论上会带来哪些好处与坏处？

【深度学习解惑】Inception 对输入通道数做了哪几种维度减小策略？如何避免信息损失？

【深度学习解惑】为什么 Inception v1 需要两个 auxiliary classifier？它们分别接在哪里、起到什么作用？

【深度学习解惑】GoogLeNet 相比传统 VGG-16，参数量减少了多少数量级？其主要“省参数”手段是什么？

【深度学习解惑】1×1 卷积在 Inception 中扮演了哪些角色？

【深度学习解惑】Inception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行？

【大模型开发解惑】大模型部署后，如何在用户反馈数据和增量数据上进行在线微调或增量训练？

【大模型开发解惑】大模型部署后，如何在本地持续收集用户反馈数据？

【大模型开发解惑】针对Qwen2多模态模型，如何设置不同学习率并融合视觉特征？

【大模型开发解惑】针对 Qwen2‑VL 系列，如何同时微调视觉和语言模块？

【大模型开发解惑】DeepSeek-R1 强化学习（RL）步骤与方法解析

【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调？

【大模型实践解惑】 如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

【大模型实践解惑】Qwen 在 CoT（Chain‑of‑Thought） 微调上的实践有哪些？

【大模型解惑】如何利用 Chain‑of‑Thought（CoT）提示和中间变量标注提升模型推理能力？

【大模型解惑】大模型如何设计评估指标（准确率、F1、BLEU、ROUGE）并进行基准对比？与普通机器学习有何不同

【大模型解惑】大模型如何划分训练、验证和测试集？和普通的机器学习有何不同

【大模型解惑】大模型微调如何设置学习率、batch size、微调轮数、warm‑up、权重衰减等超参数？

【大模型解惑】大模型超参数调优有哪些经验或自动化工具（如 Optuna）可用？

【大模型解惑】Qwen全参数微调、LoRA、Q-LoRA 或 Adapter在参数更新量、训练速度和性能提升上有何差异？

【大模型解惑】DeepSeek等何时采用全参数微调、LoRA、Q-LoRA 或 Adapter？

【大模型解惑】针对聊天、问答、代码生成等场景，如何清理、标注和格式化训练数据（JSONL、Prompt–Completion 对）？

【大模型解惑】如何将大模型部署纳入 CI/CD 流水线，实现自动化测试、部署与版本管理？

【大模型解惑】 在本地环境中如何确保大模型隔离、防止敏感数据泄露？如何使用 Docker、Kubernetes 或虚拟机加固部署？

【大模型与机器学习解惑】机器学习里的 “提取特征” 跟数学里矩阵的特征值，特征向量以及特征矩阵是什么关系？

【大模型解惑】如何集成 New Relic AI 或自建监控方案，对本地部署的模型推理延迟、内存使用、吞吐量进行实时监控？

【大模型解惑】对比 Ollama、llama.cpp、vLLM、BentoML、TGI（Text Generation Inference）等部署框架的优缺点及适用场景？

【深度学习解惑】为什么在 Inception v3 之后引入了分解卷积（Factorized Convolution）？举例说明 7×7 → 1×7+7×1 的好处。

【大模型实践解惑】如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调？

【大模型实践解惑】Qwen 在 CoT（Chain‑of‑Thought）微调上的实践有哪些？

【大模型解惑】在本地环境中如何确保大模型隔离、防止敏感数据泄露？如何使用 Docker、Kubernetes 或虚拟机加固部署？