
深度学习
文章平均质量分 91
云博士的AI课堂
前华为数据科学家/高级软件工程师/项目主管,哈佛大学高级访问学者/博后,浙江大学计算机专业博士,德国包豪斯大学媒体学院高级访问学者/博后,人工智能与计算机视觉行业专家,AI技术实践超20年。
展开
-
【深度学习解惑】EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?
EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?原创 2025-05-20 08:34:04 · 372 阅读 · 0 评论 -
【深度学习解惑】MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?
MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?原创 2025-05-20 08:21:52 · 448 阅读 · 0 评论 -
【深度学习解惑】Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?
Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?原创 2025-05-20 08:20:07 · 569 阅读 · 0 评论 -
【深度学习解惑】Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?
Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?原创 2025-05-18 22:32:24 · 634 阅读 · 0 评论 -
【深度学习解惑】简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?
简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?原创 2025-05-18 22:28:38 · 527 阅读 · 0 评论 -
【深度学习解惑】如果 GPU 计算资源非常有限,用 Inception v1 vs. ResNet‑50 哪个更合适,为什么?
在GPU计算资源受限的环境下,Inception v1展现出显著优势:显存占用减少65%训练速度提升2.4倍推理延迟降低58%建议开发者在显存小于12GB时优先考虑Inception v1架构,并通过模型压缩和量化技术进一步优化性能。原创 2025-05-16 07:49:08 · 738 阅读 · 0 评论 -
【深度学习解惑】将 Inception 与 Mixup/Label‑Smoothing 等正则手段结合时,需要对 auxiliary head 做哪些调整?
在 Inception 中结合 Mixup/Label-Smoothing 时,需确保主头与辅助头的标签分布、损失函数和梯度传播逻辑一致,并通过实验验证参数敏感性。代码实现需显式处理混合标签在辅助头的传播原创 2025-05-16 07:40:08 · 923 阅读 · 0 评论 -
【深度学习解惑】分析 Inception 特有的并行分支对显存占用、GPU 利用率的正负影响?
Inception架构通过并行分支设计实现了多尺度特征提取,显著提升了模型性能,但也带来了显存占用和GPU利用率方面的挑战。文章从显存占用和GPU利用率两个维度进行了深入分析:一方面,并行分支导致激活值显存膨胀,但通过1x1卷积降维和参数共享可以部分缓解;另一方面,分支间的计算负载不均衡和同步开销降低了GPU利用率。实验验证了Inception模块的显存占用和GPU利用率,并提出了动态分支剪枝和硬件感知的模型设计等优化建议。未来研究应注重算法与硬件的协同优化,以在提升模型性能的同时,有效管理显存和计算资源。原创 2025-05-15 14:00:52 · 1187 阅读 · 0 评论 -
【深度学习解惑】GoogLeNet 在 ImageNet 训练时使用了何种学习率衰减方案?如果改用 Cosine Decay 可能产生什么现象?
原始策略: Step Decay 简单但需调参,适合计算资源有限场景。Cosine Decay: 更鲁棒,可能提升精度,推荐配合 Warmup 使用。实验建议: 在验证集上对比两种策略的损失曲线和最终精度。原创 2025-05-15 13:51:58 · 863 阅读 · 0 评论 -
【深度学习解惑】Auxiliary loss 对主网络的收敛曲线有何影响?
辅助损失通过多机制协同作用显著影响主网络收敛曲线:初期加速下降(梯度补偿)、中期稳定优化(正则化)、后期提升泛化(表示学习)。合理设计的辅助损失可实现20-30%的训练效率提升,是现代架构设计的重要工具。未来研究应关注动态调整机制与理论解释的深化原创 2025-05-12 19:40:23 · 963 阅读 · 0 评论 -
【深度学习解惑】 为什么在 Inception v3 之后引入了分解卷积(Factorized Convolution)?举例说明 7×7 → 1×7+7×1 的好处。
Inception v3 的卷积分解策略是一种经典的结构优化手段。它通过降低计算复杂度、提升非线性建模能力,成功实现了更高效、更易训练的网络架构,影响了后续 MobileNet、EfficientNet 等网络的设计思路。原创 2025-05-12 19:36:48 · 668 阅读 · 0 评论 -
【深度学习解惑】Inception 模块的并行支路在训练时如何同步计算图梯度?
本文详细解析了Inception模块中并行支路的梯度同步机制,涵盖理论原理、PyTorch实现代码及优化建议。原创 2025-05-11 18:44:53 · 304 阅读 · 0 评论 -
【深度学习解惑】BN(BatchNorm)未出现在Inception v1 的原始论文中,如果现在给 v1 加 BN,应如何插入最合适?
虽然 Inception v1(GoogLeNet, 2014)原始论文没有使用 BN,但现在添加是完全合理且推荐的,可以提升训练稳定性、收敛速度甚至模型性能。BN 最合理的插入点是:卷积层(Conv)之后,激活函数(ReLU)之前。原创 2025-05-11 18:42:02 · 321 阅读 · 0 评论 -
【深度学习解惑】 Inception结构中如果把 5×5 卷积拆成两个串联的 3×3,理论上会带来哪些好处与坏处?
将5×5卷积拆分为两个3×3卷积显著降低了参数量和计算量,同时增强了非线性表达能力。需注意中间通道数的设置和优化策略,未来可结合动态网络与自动化搜索技术进一步优化。原创 2025-05-08 08:54:45 · 1235 阅读 · 0 评论 -
【深度学习解惑】Inception 对输入通道数做了哪几种维度减小策略?如何避免信息损失?
Inception 模块的成功不仅在于其并行结构,更体现在其对通道维度控制的精妙设计。降维并非一味压缩,而是对信息进行有选择性的提取与保留。原创 2025-05-08 08:04:36 · 1135 阅读 · 0 评论 -
【深度学习解惑】为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?
为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?原创 2025-05-05 16:50:54 · 637 阅读 · 0 评论 -
【深度学习解惑】GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?
GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?原创 2025-05-05 16:36:37 · 357 阅读 · 0 评论 -
【深度学习解惑】1×1 卷积在 Inception 中扮演了哪些角色?
1×1 卷积在 Inception 中扮演了哪些角色?原创 2025-05-04 22:41:22 · 1017 阅读 · 0 评论 -
【深度学习解惑】Inception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?
nception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?原创 2025-05-04 22:37:31 · 867 阅读 · 0 评论 -
【大模型开发解惑】大模型部署后,如何在用户反馈数据和增量数据上进行在线微调或增量训练?
本文系统梳理了大模型在线微调与增量训练的理论、技术与实践。从基于梯度累积与PEFT的参数高效更新,到流式训练与联邦学习的隐私保护架构,再到性能评估与未来研究方向,均提供了落地案例与代码。希望本文能为学术与工程实践提供完整参考,助力持续学习系统在工业界加速落地。原创 2025-05-02 23:20:05 · 986 阅读 · 0 评论 -
【大模型开发解惑】大模型部署后,如何在本地持续收集用户反馈数据?
大模型部署后实际,如何在本地持续收集用户反馈数据?原创 2025-05-02 23:06:10 · 1078 阅读 · 0 评论 -
【大模型开发解惑】针对Qwen2多模态模型,如何设置不同学习率并融合视觉特征?
基于Qwen2多模态模型的学习率设置与视觉特征融合方法实践原创 2025-05-01 18:58:25 · 1138 阅读 · 0 评论 -
【大模型开发解惑】针对 Qwen2‑VL 系列,如何同时微调视觉和语言模块?
多模态大模型(MLLM)的轻量级调优范式迅速成熟,Qwen2-VL 系列已在 Hugging Face 提供完整权重和工具链,可通过 LoRA/QLoRA 等参数高效微调方法同时更新视觉与语言分支。在整理国内外最新实践后,下面给出一套端到端同时细调视觉 + 语言模块的实战方案,附完整代码骨架、典型案例、以及面向下一代 Qwen-VL 的前瞻建议。原创 2025-05-01 18:46:41 · 750 阅读 · 0 评论 -
【大模型开发解惑】DeepSeek-R1 强化学习(RL)步骤与方法解析
以DeepSeek‑R1为例, 强化学习(RL) 步骤和方法原创 2025-04-30 07:41:48 · 1048 阅读 · 0 评论 -
【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?
大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?原创 2025-04-30 07:38:04 · 1218 阅读 · 0 评论 -
【大模型实践解惑】 如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调?
【大模型实践解惑】 如何在 Supervised Fine‑Tuning (SFT) 之后进行 Direct Preference Optimization (DPO) 微调?原创 2025-04-29 17:19:38 · 939 阅读 · 0 评论 -
【大模型实践解惑】Qwen 在 CoT(Chain‑of‑Thought) 微调上的实践有哪些?
总结了 Qwen 系列模型在 CoT(Chain-of-Thought)微调上的最新进展、典型落地、可直接运行的代码骨架以及后续可优化方向。要点先览:Qwen-2/3 已原生支持 <think>…</think>“思考块”;社区主流做法是在此基础上用 LoRA + SFT 或 GRPO/DPO 强化推理能力,衍生出 TokenSkip(压缩思维链)、Speculative CoT(双模型推测)等高效框架。国内企业多把 Qwen-2.5/DeepSeek-R1-Qwen 用于数学推理、医学 QA、教育等场景原创 2025-04-29 17:08:35 · 1178 阅读 · 0 评论 -
【大模型解惑】如何利用 Chain‑of‑Thought(CoT)提示和中间变量标注提升模型推理能力?
【大模型解惑】如何利用 Chain‑of‑Thought(CoT)提示和中间变量标注提升模型推理能力?原创 2025-04-28 08:34:35 · 934 阅读 · 0 评论 -
【大模型解惑】大模型如何设计评估指标(准确率、F1、BLEU、ROUGE)并进行基准对比?与普通机器学习有何不同
【大模型解惑】大模型如何设计评估指标(准确率、F1、BLEU、ROUGE)并进行基准对比?与普通机器学习有何不同原创 2025-04-28 08:32:35 · 829 阅读 · 0 评论 -
【大模型解惑】大模型如何划分训练、验证和测试集?和普通的机器学习有何不同
【大模型解惑】大模型如何划分训练、验证和测试集?和普通的机器学习有何不同原创 2025-04-28 08:09:22 · 517 阅读 · 0 评论 -
【大模型解惑】大模型微调如何设置学习率、batch size、微调轮数、warm‑up、权重衰减等超参数?
在微调大语言模型(LLM)时,“学习率、批次大小、训练轮数、预热步数 (warm-up) 和权重衰减”这组超参数往往决定了效率与效果的上限。结合近两年国内外公开的最佳实践与论文报告,可以归纳出一套易落地的调参框架:"先用经验区间做“粗Sweep”,再用自动化搜索(Optuna / Ax)做“细Sweep”,并按任务规模递增地启用 LoRA、Q-LoRA、ZeRO-3 或 Flash-Attention 等节省算力的技术。"下面给出完整文章内容,包括概念讲解、对比表、代码范例(以阿里 Qwen-14B 为例)原创 2025-04-27 18:40:39 · 1242 阅读 · 0 评论 -
【大模型解惑】大模型超参数调优有哪些经验或自动化工具(如 Optuna)可用?
【大模型解惑】大模型超参数调优有哪些经验或自动化工具(如 Optuna)可用?原创 2025-04-27 18:26:23 · 637 阅读 · 0 评论 -
【大模型解惑】Qwen全参数微调、LoRA、Q-LoRA 或 Adapter在参数更新量、训练速度和性能提升上有何差异?
关于 全参数微调(Full Parameter Fine-Tuning)、LoRA(Low-Rank Adaptation)、Q-LoRA(Quantized Low-Rank Adaptation) 和 Adapter 在 参数更新量、训练速度和性能提升 上的差异,以及如何在阿里Qwen的开源大模型上应用它们,下面是一个详细的文章目录提纲,并附上代码案例和解释。原创 2025-04-27 18:19:53 · 1015 阅读 · 0 评论 -
【大模型解惑】DeepSeek等何时采用全参数微调、LoRA、Q-LoRA 或 Adapter?
【大模型解惑】DeepSeek等何时采用全参数微调、LoRA、Q-LoRA 或 Adapter?原创 2025-04-27 18:16:17 · 629 阅读 · 0 评论 -
【大模型解惑】针对聊天、问答、代码生成等场景,如何清理、标注和格式化训练数据(JSONL、Prompt–Completion 对)?
针对聊天、问答、代码生成等场景,如何清理、标注和格式化训练数据(JSONL、Prompt–Completion 对)?原创 2025-04-26 11:23:24 · 544 阅读 · 0 评论 -
【大模型解惑】如何将大模型部署纳入 CI/CD 流水线,实现自动化测试、部署与版本管理?
以下是一个将大模型部署整合到CI/CD流水线的详细方案,包含目录结构、核心流程说明及实际代码案例。内容涵盖自动化测试、容器化部署、版本管理以及持续交付的完整链路。原创 2025-04-26 10:18:11 · 348 阅读 · 0 评论 -
【大模型解惑】 在本地环境中如何确保大模型隔离、防止敏感数据泄露?如何使用 Docker、Kubernetes 或虚拟机加固部署?
本地大模型若直接接触企业知识或用户隐私,一旦容器越狱、网络外连或磁盘被窃取就可能泄露敏感数据。隔离思路是让模型“跑在盒子里、网在笼子里、数据全程加密”,并结合持续监控。下文先给出总体威胁模型与隔离层,然后分别给出 Docker、Kubernetes、虚拟机 (含机密计算)三条加固路线,并附可复制的示例代码与 YAML。原创 2025-04-24 21:19:22 · 899 阅读 · 0 评论 -
【大模型与机器学习解惑】机器学习里的 “提取特征” 跟数学里矩阵的特征值,特征向量以及特征矩阵是什么关系?
在机器学习中,“特征提取”(feature extraction)是指将原始数据映射为有助于模型学习的数值表示;而在线性代数里,“特征值”“特征向量”及“特征矩阵”则刻画矩阵的内在性质。二者在 PCA、谱聚类 等算法中交汇:ML 用特征值分解来寻找数据的主方向,但其“特征”本身各有不同的含义和作用。下文将系统对比二者的概念、联系和区别,并辅以 Python 代码示例帮助理解。原创 2025-04-24 11:26:36 · 1086 阅读 · 0 评论 -
【大模型解惑】如何集成 New Relic AI 或自建监控方案,对本地部署的模型推理延迟、内存使用、吞吐量进行实时监控?
如何集成 New Relic AI 或自建监控方案,对本地部署的模型推理延迟、内存使用、吞吐量进行实时监控?原创 2025-04-23 23:28:44 · 583 阅读 · 0 评论 -
【大模型解惑】对比 Ollama、llama.cpp、vLLM、BentoML、TGI(Text Generation Inference)等部署框架的优缺点及适用场景?
Ollama、llama.cpp、vLLM、BentoML 和 TGI (Text Generation Inference) 都是近两年出现的主流大模型部署/推理框架。它们在平台定位、依赖栈、吞吐延迟优化与运维便利度上侧重不同,适合的硬件环境与业务规模也不一样。下面按「关键特性 → 优劣 → 典型场景」结构作系统对比。原创 2025-04-23 23:26:07 · 724 阅读 · 0 评论