- 博客(1704)
- 资源 (3)
- 收藏
- 关注
原创 深度学习优化算法(二)—— SGD + Momentum + Nesterov(三十四)
本文介绍了深度学习中三个经典优化算法:SGD、Momentum和Nesterov Momentum。SGD通过随机梯度估计和学习率衰减解决训练困难,但存在梯度噪声问题。Momentum通过累积梯度方向加速训练,能有效应对病态损失和高方差梯度,典型设置α=0.9可使步长放大10倍。Nesterov Momentum进一步改进,采用"前瞻-计算"策略,在病态问题上收敛更快。实践表明,学习率调度(如cosine衰减)比优化器选择更重要,而适度的训练震荡是正常的。这些算法为现代优化器(如Adam
2026-05-14 13:40:09
204
原创 深度学习优化算法(一)—— 学习 vs 纯优化 + 优化挑战(三十三)
本文深入探讨了深度学习优化与纯优化的本质差异。机器学习优化面临三大核心挑战:1)目标函数基于经验风险而非真实分布;2)需使用代理损失函数(如交叉熵替代0-1损失);3)批量选择影响梯度估计精度和泛化性能。特别分析了病态条件问题,指出深度网络的Hessian矩阵条件数可达10^4-10^6量级,导致训练震荡缓慢,这解释了BatchNorm和自适应优化器的必要性。同时颠覆了传统认知,指出深度网络的局部极小值问题被高估,模型参数存在置换对称性等可识别性问题。文章通过理论分析和数值实验,揭示了现代深度学习
2026-05-14 13:37:53
203
原创 算法基础(十三)——随机算法为什么有时主动引入随机性
很多人第一次听到“随机算法”,容易产生一个误解:算法不是应该严谨、确定、可证明吗?为什么还要引入随机性?其实随机算法不是“瞎猜”,也不是“碰运气”。它的核心目的是:通过主动引入随机选择,降低算法被特殊输入卡住的概率,让整体表现更稳定。这篇先从直觉开始,讲清楚随机算法为什么有用、随机性通常加在哪里、什么是期望运行时间,并为后面学习随机化快速排序打基础。
2026-05-13 09:28:41
571
原创 深度学习正则化(五)—— 对抗训练 + 切面分类(三十二)
对抗样本(Adversarial Example):与原样本x\mathbf{x}x极其相近但模型预测完全不同的样本x′x′∥x′−x∥∥x′−x∥很小(人眼不可分辨)fx′≠fxfx′fx(模型预测不同)篇号主题核心武器28参数范数惩罚29数据增强 + 噪声 + 半监督MixUp + 标签平滑30提前终止 + 参数共享 + 稀疏表示31子网络集成32对抗训练 + 切面分类PGD + 流形几何核心哲学。
2026-05-13 09:23:29
225
原创 深度学习正则化(四)—— Bagging + Dropout(三十一)
扫描协方差比 c/v 从 0(完全独立)→ 0.3(弱相关)→ 0.5 → 0.7 → 1(完全相关),观察 MSE 从 0.10(降低 90%)退化到 1.00(无效);采样不同的 Bernoulli 掩码(保留 0.8 输入 + 0.5 隐藏),被丢弃的神经元用红 ✕ 标注,连接也被切断;要做 10 模型集成需要 10 周——非常昂贵。当模型容量已经被其他方式严格限制时(如严重数据不足),Dropout 可能让训练变难。:**整个特征图(channel)**一起 dropout——某通道全部置 0。
2026-05-13 09:11:17
515
原创 深度学习正则化(三)—— 提前终止 + 参数共享 + 稀疏表示(三十)
本文探讨了深度学习中三种隐式正则化方法:提前终止、参数共享和稀疏表示。提前终止通过监控验证误差在最佳时机停止训练,数学上等价于L2正则化但计算成本更低。参数共享强制多个参数相等,典型应用如CNN通过卷积核共享大幅减少参数量(全连接层4.8×10^11 vs 卷积层1,728)。这些方法通过限制模型有效容量实现正则化,其中提前终止简单高效,参数共享则编码了平移不变性等强归纳偏置。数值推演展示了这些方法在实际训练中的显著效果,如早停可避免验证误差上升2.3倍,CNN参数共享减少参数量达2.8亿倍。
2026-05-12 09:16:06
60
原创 多层感知机(MLP / Feedforward Neural Network)百科全书
从 1943 年 MP 神经元的雏形出发,完整剖析多层感知机(MLP)的数学定义、万能逼近定理、XOR 解决方案(带完整数值演示)、完整训练流程、12 大训练技巧、与 CNN/RNN/Transformer 的全方位对比、感知机到现代深度学习的演化、MLP 在 Transformer FFN / MLP-Mixer / MoE 中的现代地位、PyTorch 实战。配 7 张交互式动图(所有公式格式化排版)。
2026-05-12 09:10:31
42
原创 算法基础(十二)——主方法快速求解常见递归式
主方法是一种快速求解分治递归式T(n)=aT(n/b)+f(n)复杂度的工具。通过比较f(n)与基准项n^(log_b a)的相对大小,分为三种情况:1) f(n)更小则递归主导,复杂度为Θ(n^(log_b a));2) 同级则每层贡献相近,复杂度为Θ(n^(log_b a) log n);3) f(n)更大则合并成本主导,复杂度为Θ(f(n))。该方法适用于标准分治递归式,但不适用于所有递归情况。实际应用时需准确计算基准项并正确比较函数增长率,避免常见误区如硬套公式或忽略对数因子。
2026-05-11 10:41:20
560
原创 算法基础(十一)—— 递归树如何看懂分治算法的运行时间
本文通过递归树方法分析了分治算法的复杂度,重点以归并排序为例展开。文章首先介绍了递归树的基本概念和术语,将递归调用过程可视化为树状结构,其中每个节点代表子问题的成本。通过动态推演展示了递归树逐层展开的过程,详细解释了每层成本的计算方法(如归并排序每层成本恒为n)和总成本的求和逻辑(层数log n × 每层成本n)。文章还列举了不同递归式的复杂度分析(如二分查找O(log n)),指出了常见误区,并通过Python代码模拟了递归层级成本。最后强调递归树分析的核心在于考察每层子问题数量、规模及总层数,为理解分治
2026-05-11 10:25:13
517
原创 ds4.c 深度解析为 DeepSeek V4 Flash 打造的本地推理引擎
从“为什么还要单独写一个推理引擎”出发,系统拆解 `antirez/ds4` 的设计思想、专用 GGUF 加载、Metal Graph 执行路径、KV Session 复用、Disk KV Cache、OpenAI / Anthropic API 兼容、Agent 接入方式、与 llama.cpp / vLLM / Ollama 的定位差异,并给出完整上手命令和工程选型建议。配 7 张原创交互式动图。
2026-05-10 14:57:16
510
原创 反向传播(Backpropagation)百科全书让神经网络学会学习的算法
1986 年 10 月,Geoffrey Hinton、David Rumelhart 和 Ronald Williams 在 Nature 上发表了一篇仅 4 页的论文:这篇论文做了一件听起来不可思议的事——让多层神经网络真正学会从数据中学习。在此之前,神经网络处于历史最低谷。1969 年 Minsky 与 Papert 在《Perceptrons》中证明:单层感知机无法表达 XOR——一个看似平凡的限制却让神经网络研究停滞了 17 年。学者们悲观地认为:多层网络在原理上能解决 XOR,但没人知道如何训练
2026-05-10 09:25:49
148
原创 McCulloch-Pitts 神经元百科全书人工智能的“始祖鸟“
从 1943 年那个改变历史的夏夜出发,完整剖析人工神经网络的开山之作 ——MP 神经元。包含数学定义详解、阈值激活原理、AND/OR/NOT 逻辑门构造(带数值演示)、记忆电路与多数表决器、XOR 不可解的几何证明、从 MP 到感知机/MLP/现代深度学习的 80 年演化、McCulloch 与 Pitts 的传奇故事、与 ReLU/Sigmoid/Tanh 的全方位对比。配 7 张交互式动图。
2026-05-10 08:18:28
31
原创 算法基础(十)——分治思想把大问题拆成小问题
本文系统介绍了分治算法的核心思想与应用。分治通过将复杂问题拆解为结构相似的子问题,递归求解后合并结果,典型代表是归并排序。文章详细解析了分治的三步流程(分解、解决、合并),通过归并排序的递归树和动态演示展示了算法执行过程,强调合并步骤的关键作用。代码示例提供了Python和C++实现,并指出常见误区(如简单拆分不等于分治)。最后延伸说明分治思想在排序、搜索、分布式计算等领域的广泛应用。全文以归并排序为主线,完整呈现了分治算法从原理到实践的知识体系。
2026-05-09 10:20:04
396
原创 深度学习正则化(二)—— 数据增强、噪声鲁棒性、半监督学习(二十九)
渲染(λ=0.5 时猫狗各 50% 完美对半混合),中间标签直方图同步显示三类的软标签数值(猫: λ, 狗: 1-λ, 鸟: 0),右侧实时验证 λ + (1-λ) + 0 = 1.0 ✓。动画用同一只"卡通猫"演示 9 种增强:原图 → 平移 → 旋转 → 翻转 → 缩放 → 颜色抖动 → 高斯噪声 → CutOut 遮挡 → MixUp 混合。——比如 ImageNet 上 ±90° 旋转可能让"竖立的杯子"变成"躺倒的杯子",含义已变。——这类点泛化更好(第 21 篇的 SGD 噪声讨论)。
2026-05-09 10:06:51
91
原创 深度学习正则化(一)—— 参数范数惩罚(二十八)
本文系统介绍了深度学习中两种核心的正则化方法:L2和L1正则化。L2正则化通过权重衰减机制,对大权重施加更强惩罚,使参数整体缩小但保持非零;L1正则化则通过恒定推力产生稀疏解,使不重要参数精确为零。文章从数学形式、几何解释、数值推演等多角度对比了二者的特性:L2适合控制过拟合,L1能实现特征选择。特别地,L2在线性回归中表现为岭回归,可解决矩阵奇异问题;L1则对应Lasso回归,通过软阈值操作产生稀疏解。两种方法共同构成了深度学习防止过拟合的基础工具集。
2026-05-09 09:50:09
205
原创 SubQ 里的 SSA 神经网络架构百科全书从二次方瓶颈到长上下文稀疏注意力
从标准 Transformer 的 Dense Attention 瓶颈出发,完整拆解 SubQ 所说的 SSA(Subquadratic Sparse Attention)到底是什么、为什么能面向百万级上下文、它和固定稀疏注意力/RAG/状态空间模型有什么区别,并给出公式推导、数值演示、企业落地架构、PyTorch 简化实现和审慎判断。配 7 张交互式动图。
2026-05-08 13:57:01
149
原创 算法基础(九)——循环不变式如何证明一个算法是正确的
写出一个算法之后,还有一个更关键的问题:它为什么一定是对的?测试几个样例,只能说明它在这些输入上没出错,不能证明它对所有合法输入都正确。要真正说明一个循环算法是正确的,常用方法就是循环不变式。循环不变式听起来像数学术语,但核心并不难:它就是一个在循环过程中始终保持成立的关键性质。这篇用插入排序作为例子,系统讲清楚循环不变式的三步证明法:初始化、保持、终止。
2026-05-08 12:56:32
734
原创 Edge 浏览器保存密码真的安全吗?一次讲清“明文内存”争议、真实风险和正确防护
对邮箱、支付、云平台、服务器、域名后台、企业管理后台等高价值账号,不建议只依赖浏览器保存密码。当 Edge 浏览器运行时,保存过的密码是否会被提前解密,并以明文形式出现在浏览器进程内存中,甚至可能不是“用到哪个才解密哪个”,而是更大范围地加载到内存里。第二,Chrome、Brave、Firefox 等浏览器也无法完全绕开“自动填充时解密到内存”的问题,只是实现策略和暴露范围可能不同。但专业密码管理器通常会围绕密码管理做更多安全设计,例如主密码、锁定策略、剪贴板清理、加密数据库、审计能力、企业策略等。
2026-05-07 10:22:40
489
原创 算法基础(八)——插入排序运行时间最好最坏和平均情况
例如大数组用更适合整体排序的算法,小数组或接近有序片段再切换到插入排序,这样可以兼顾理论复杂度和实际性能。逆序输入代表最坏情况。前面已经知道,算法分析不能只看某一次运行结果,而要看输入规模变大后的增长趋势。小数据量下,复杂度影响较小,但分析仍然能帮助你理解算法行为。所以平均情况下,总移动次数仍然接近平方级,只是常数比最坏情况小。不同实现中,移动成本可能很明显,尤其当元素对象很大时。随机输入时,每个元素大概不会总是在最前,也不会总是在最后。如果当前元素比前面很多元素都小,就要一路向前比较、移动。
2026-05-07 09:53:11
689
原创 算法基础(七)——常见函数增长速度从logn到2n
学会了 O、Ω、Θ 之后,还需要认识常见函数的增长速度。因为复杂度分析真正有用的地方,不只是会写一个符号,而是能快速判断:这个增长速度,在数据规模变大后还能不能扛住?O(n)、O(n log n)、O(n²)、O(2ⁿ) 看起来只是几个表达式,但它们背后的差距非常大。小规模时差距可能不明显,一旦输入规模变大,差距会迅速拉开。这篇就系统梳理常见增长速度,并用图和数值帮助建立直觉。
2026-05-07 09:13:53
488
原创 算法基础(六)—— 大 O、Ω、Θ如何描述算法增长边界
前面已经知道,复杂度分析不是追求精确计时,而是关注输入规模变大后的增长趋势。但只说“增长趋势”还不够。因为一个算法的运行时间,可以从不同角度描述:它最多增长到什么程度?它至少增长到什么程度?它是否被上下两个边界稳定夹住?它到底是不是某个确定的增长级别?这就引出了三个最常用的复杂度记号:O、Ω、Θ这篇就把它们彻底讲清楚。
2026-05-07 09:07:48
505
原创 算法基础(五)——增长量级为什么我们只关心最高阶项
前面已经知道,算法分析关注的不是某次运行到底用了几秒,而是输入规模变大以后,运行成本如何增长。但这里马上会遇到一个新问题:如果一个算法的运行时间是 3n² + 10n + 100,为什么最后只说它是 O(n²)?这篇就专门讲清楚这个问题:为什么复杂度分析会忽略常数项、低阶项和常数因子,为什么最终只保留最高阶项,以及这种简化到底有没有道理。
2026-05-06 13:35:45
412
原创 算法基础(四)——算法分析如何判断一个算法快不快
写出一个能运行的程序,只是第一步。真正进入工程场景后,更关键的问题往往是:数据量变大以后,它还跑得动吗?一个程序在 10 条数据上很快,不代表在 100 万条数据上也能接受;一段代码在本机测试没问题,不代表放到线上高并发环境里仍然稳定。算法分析要解决的,正是这个问题:脱离具体机器、语言和偶然测试样例,从增长趋势上判断一个算法的效率。这篇内容重点讲清楚:输入规模、基本操作、运行时间、增长率,以及最好情况、最坏情况、平均情况之间的区别。
2026-05-06 10:23:48
613
原创 算法基础(三)—— 插入排序从整理扑克牌到有序数组
插入排序是很多人接触排序算法时遇到的第一个经典算法。它的思想并不复杂:左边保持有序,右边逐个取出元素,把它插入到左边合适的位置。如果你整理过扑克牌,就已经理解了插入排序的大部分直觉。手里已经排好的牌就是“有序区”,新摸到的一张牌就是“待插入元素”,你会从右往左找位置,把它插进去。这篇内容会从直觉、过程、伪代码、动态执行、正确性、复杂度和代码实现几个角度,把插入排序完整讲清楚。
2026-05-06 09:47:02
702
原创 别再只问哪个 AI 编程最强了真正厉害的模型,必须经得起工程检验
现在很多人评测 AI 编程模型,喜欢用一句话概括:谁才是编程王者?这个问题很适合做视频标题,但从工程角度看并不严谨。真实开发不是比谁生成的页面更炫,也不是比谁第一次回答更像答案,而是要看模型能不能在复杂约束下稳定理解需求、组织代码、处理边界、验证结果,并且尽量少“自信地写错”。
2026-04-29 13:03:17
372
原创 Ubuntu 上正确安装 Kali 虚拟机、Docker 与 kail 工具指南
很多人第一次在 Ubuntu 上安装 Kali 时,会搜索到一些“把 Kali 源加到 Ubuntu”的教程。这个做法看起来简单,但风险很高。Kali 官方明确提醒:把 Kali 仓库添加到 Ubuntu 这类非 Kali 系统中,会显著增加系统损坏概率,并且这类混合源配置不受 Kali 官方支持。
2026-04-29 10:36:02
598
原创 算法基础(二)——算法为什么是一种核心技术
很多人会把算法理解成“面试题”或者“竞赛题”,觉得它离真实工程很远。其实恰恰相反:当数据规模变大、用户请求变多、系统延迟变敏感时,真正决定系统能不能扛住压力的,往往不是某一行语法,而是背后的算法选择。同样是排序,同样是查找,同样是路径规划,不同算法在小数据下可能差别不明显;但一旦输入规模扩大,差距就会迅速放大到几个数量级。硬件可以加速计算,但算法决定的是增长方式。增长方式一旦选错,再好的机器也可能被拖垮。这一篇重点讲清楚:为什么算法本身就是一种技术能力。
2026-04-29 10:15:14
692
原创 DeepSeek-V4 正式发布1M 上下文、Agent 能力与企业落地
DeepSeek-V4 的发布,不只是一次普通的大模型升级。它把 1M 超长上下文、Agent 能力增强、Pro / Flash 双版本、API 兼容 OpenAI / Anthropic 风格 这些关键能力,放到了同一个产品体系里。对于开发者来说,这意味着它既可以做复杂推理和代码任务,也可以做高并发、低成本的轻量业务;对于企业来说,它更像是一套可以真正落地到知识库、客服、写作、代码助手、合同审查和自动化办公中的 AI 基础能力。
2026-04-28 14:40:21
475
原创 深度学习深度前馈网络(五)—— 反向传播算法详解(二十七)
反向传播是深度学习的核心算法,它通过计算梯度来驱动模型优化。本文系统讲解了反向传播的工作原理: 概念澄清:反向传播是计算梯度的算法(而非学习算法本身),现代深度学习框架都基于它构建计算图。 计算图原理:将数学表达式表示为有向无环图,节点为变量,边为操作。通过前向传播计算输出,反向传播应用链式法则计算梯度。 链式法则:详细推导了标量和向量形式的链式法则,展示如何通过Jacobian矩阵实现梯度反向传播。 算法实现:给出反向传播的递归伪代码,并完整推导了MLP的反向传播过程,包括ReLU激活函数的梯度计算。 关
2026-04-28 08:30:00
938
原创 Windows C 盘空间告急?用 PowerShell 写一个安全可控的清理脚本
Windows 系统用久之后,C 盘经常会被临时文件、Windows Update 缓存、错误报告、缩略图缓存、回收站文件等内容占满。很多人第一反应是手动删除文件,但如果误删 C:\Windows\Installer、WinSxS 或软件目录,可能会导致系统更新失败、软件无法卸载,甚至系统异常。本文从安全清理思路出发,设计一个适合日常使用的 C 盘清理脚本,重点清理临时文件和系统缓存,同时避免误删关键系统目录。
2026-04-27 10:15:52
479
原创 扩散模型(DDPM / Diffusion Model)从加噪到艺术的诞生
从"破坏与重建"的物理直觉出发,完整推导前向扩散数学(含真实数值演示)、反向去噪过程、U-Net 架构、VLB 损失到简化 MSE 的完整推导、训练与采样算法、DDIM/LDM/Flow Matching 变体演化、PyTorch 实战。配 7 张交互式动图(所有公式均格式化排版)。
2026-04-27 10:03:43
162
原创 大模型 Abliteration 从拒绝方向到权重正交化的几何手术
从“模型为什么会拒绝”的直觉出发,完整拆解 refusal direction、residual stream、harmful / harmless 激活均值差、投影消除、权重正交化、TransformerLens 实现流程、DPO 能力修复、benchmark 结果与安全启示。保留原文 5 张配图,补充 2 张中文不乱码动态图。
2026-04-27 08:45:00
688
原创 状态空间模型(SSM)从温度计到 Mamba 的序列革命
2020 HiPPO:发现长程记忆的最优数学结构2021 S4:把 HiPPO 落地到神经网络,FFT 训练加速:选择性参数 + 硬件感知扫描,比肩 Transformer:与注意力的理论统一,工程效率再次飞跃但更深刻的意义在于——SSM 给了我们一个看序列建模的全新视角不是把序列当作"一堆 tokens"(Transformer 视角),而是把序列当作"一个动力系统的轨迹"(SSM 视角)。每个 token 不是独立的"实体",而是动力系统在某一时刻的"测量"
2026-04-26 09:00:00
154
原创 Three.js 是什么——网页里的 3D 世界从这里开始(一)
Three.js是一个JavaScript 3D图形库,它封装了WebGL/WebGPU的底层细节,提供更易用的场景管理、相机、几何体、材质、灯光等对象。核心结构包括Renderer、Scene、Camera、Mesh等,其中Mesh=Geometry+Material。Three.js适合在浏览器中开发3D内容,让用户无需安装客户端即可体验3D效果。基础程序通过renderer.render(scene, camera)渲染场景,开发者可以更专注于3D内容而非底层实现。
2026-04-26 09:00:00
217
原创 深度学习深度前馈网络(四)—— 架构设计(二十六)
深度神经网络的结构设计是提升模型性能的关键。本文分析了深度网络相比浅层网络的指数级优势,以及如何通过残差连接解决深度网络的训练难题。研究表明,深度ReLU网络能划分的线性区域数量随层数指数增长,而同等参数量的浅层网络仅能多项式增长。但深度网络面临梯度消失问题,ResNet通过引入跳跃连接,使网络能轻松学习恒等映射,确保梯度稳定传播。实验证实,残差结构使152层网络在ImageNet上的错误率降至3.6%,远优于19层网络的7.3%。这种结构已成为现代深度学习模型的基础设计范式。
2026-04-25 11:16:57
93
原创 深度学习深度前馈网络(三)—— 隐藏单元(激活函数)(二十五)
ReLU 网络(每层导数 = 1.0),梯度始终保持在 1.0 附近。底部柱状图用对数尺度直观展示——这就是为什么深度网络抛弃 Sigmoid 改用 ReLU 的关键原因。(ReLU/GELU/SiLU 的细微差别)。新的激活函数(GELU/Swish)在 Transformer 中显著好于 ReLU,但。——SiLU 几乎是 GELU 的简化版本(GELU ≈ SiLU(1.702z))。第 23 篇通过 XOR 理解了"非线性激活"的必要性。,让大多数神经元初始就处于激活区——避免"出生即死"。
2026-04-25 11:14:09
321
原创 Projected Abliteration从激活空间理解大模型的“拒绝机制”
本文探讨了大语言模型安全对齐机制中的拒绝行为内在机理。研究指出,传统方法将"高风险请求平均激活"减去"无害请求平均激活"得到的拒绝方向(r=μH-μA)可能混杂了语义差异、正常回答能力等因素。为此,作者提出Projected Abliteration方法,通过将拒绝方向r分解为与无害方向μA平行的分量(r∥μA)和正交分量(r⊥μA),只保留更纯粹代表拒绝机制的正交部分(rproj=r⊥μA)。该方法采用向量投影公式rproj=r-(r·μA,unit)μA,unit
2026-04-25 08:30:00
415
原创 生成对抗网络(GAN)从对抗博弈到创造的艺术
GAN 是深度学习历史上最美丽的想法之一。Goodfellow 在 2014 年的那个酒吧辩论,重新定义了"生成"这件事——不是去描述数据的概率密度,而是去学习如何从数据分布中采样。博弈论视角:让我们意识到,学习可以是双方(甚至多方)的动态过程,而不仅仅是单一目标的优化。隐式生成模型:我们可以绕过似然函数,用"能采样"代替"能写出概率"。对抗训练范式:对抗损失从图像生成扩散到鲁棒性、域适应、自监督等诸多方向。
2026-04-24 22:39:16
107
原创 vLLM 异构三卡部署4090D 做 Prefill,双 A100 做 Decode(二)
本文提出了一种异构GPU推理部署方案B,将大模型推理过程拆分为Prefill和Decode两个阶段,并分配不同GPU资源: Prefill阶段由RTX 4090D单独处理,负责Prompt输入和KV Cache生成,适合计算密集型任务 Decode阶段由双A100并行处理,专注于token连续生成,利用数据中心卡的稳定性优势 方案B通过角色分离实现了: 避免异构GPU间的执行节奏冲突 针对性优化不同推理阶段的需求 提高整体服务稳定性和资源利用率 部署采用三个独立服务:Prefill服务(4090D)、
2026-04-24 10:10:42
537
原创 vLLM 异构三卡部署实战4090D + 双 A100 使用 Pipeline Parallelism 方案(一)
本文探讨了在异构GPU服务器上部署vLLM推理服务的优化方案。针对同时配置RTX 4090D和两张A100-SXM4-40GB的服务器环境,提出使用Pipeline Parallelism(PP=3)而非Tensor Parallelism(TP=3)的部署策略。通过将模型按层切分为三个阶段,分别由三张异构GPU执行,避免了异构GPU在张量并行时可能出现的性能不一致问题。文章详细说明了配置方法,包括systemd服务文件设置和关键参数解释,并对比了两种并行方式的优缺点。该方案旨在充分利用异构GPU资源,实现
2026-04-24 09:52:16
624
Wav2Vec2模型文件
2024-02-29
arcface模型文件
2024-02-28
Resnet152模型文件基于2048维度的向量
2024-02-28
建议一个名称为 FusionDepthSR,即“融合深度超分辨网络” 这个名称突出了项目核心:利用 RGB 图像引导,实现深度图的超分辨率重建,并通过多尺度与反馈机制融合特征,提升重建效果
2025-03-08
Middlebury2014 & RGB TRAIN 深度超分数据集
2025-03-08
axure web元件库.zip
2024-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅