AI算力小知识-CSDN博客

原创 4080 Super 32GB 魔改显卡与 3090 和 4090 的对比

对比 RTX 4080 Super 32GB 魔改版、3090 与 4090 在 AI 推理与训练场景中的实际表现，分析显存容量、显存带宽与 Tensor 算力的差异，给出万元级 GPU 的选型建议，适合有本地大模型部署需求或算力预算规划的开发者参考。

2026-03-26 09:49:58 349

原创 Prompt、Agent、MCP 和 Skills：大模型时代的工具栈到底在干嘛

本文用清晰的问题链，把 Prompt、Agent、Function Calling、MCP 和 Skills 这几个常被混淆的大模型概念串联起来。从 system/user prompt 的分工讲起，到 Agent 如何调用工具、MCP 如何统一工具层通信，再到 Skills 与 MCP 的本质差异——不堆术语，只讲清楚它们各自在解决什么问题。

2026-02-27 10:33:37 594

原创 2025年GPU算力租赁市场总结

2025年中国GPU算力租赁市场突破千亿规模，从"抢卡"转向"拼交付"。价格雪崩超70%，H100降至15-20元/小时，A100仅3-5元/小时。推理需求崛起预计2028年占比73%，训练转向项目制。国产昇腾加速替代，液冷技术使PUE降至1.1。企业"增收不增利"成常态，竞争从价格战转向异构调度、生态服务。合规成硬门槛，交付能力被定价。市场从"量的扩张"到"质的提升"转折。

2026-02-19 19:49:55 1386

vLLM是一款专注于提升大模型推理效率的开源引擎，通过PagedAttention和连续批处理两大核心技术显著提升GPU利用率。测试显示，在RTX 3090上运行Qwen3 8B模型时，vLLM在高并发场景下吞吐量可达传统方法的2-3倍，尤其适合API服务、成本敏感型业务和已有工程体系。其核心价值在于优化KV Cache管理和请求调度，使相同硬件支撑更多请求。建议从单卡测试开始，逐步集成到服务体系，是提升大模型推理性价比的有效解决方案。

2026-02-10 16:04:12 475

转载 RTX 5090 和 A100 怎么选：游戏卡与计算卡的真实差别

本文围绕 RTX 5090 和 NVIDIA A100 展开对比，重点分析两者在定位、双精度计算、AI 推理性能和大模型训练中的差异。A100 依托 HBM 显存和 NVLink，在高精度科研与多卡训练场景中优势明显；RTX 5090 在单精度算力和推理速度上更有优势，更适合 7B–32B 模型、本地推理与内容创作。选择哪张卡，取决于具体业务场景和长期使用规划。

2026-01-28 11:30:25 760

转载 RTX 4090 48GB 魔改版简评：翻倍显存，谁真的用得上？

RTX 4090 48GB魔改版显卡分析：显存翻倍带来AI生产力跃升核心要点：本质仍是4090架构，仅将显存从24GB提升至48GB，带宽保持1TB/s AI生图场景优势显著：可流畅运行复杂ComfyUI流程，支持高分辨率多阶段处理大模型推理能力提升：单卡可运行32B模型，70B模型经量化后也能支持定位介于消费卡与专业卡之间，适合AIGC创作者和大模型开发者性价比评估：对高频AI用户值得考虑，普通用户24GB版已足够该卡并非性能更强的游戏卡，而是面向AI工作负载优化的生产力工具。

2026-01-26 13:03:20 886

转载 GPU 单挑 CPU：从矩阵乘法到并行计算的入门

神经网络的核心运算是矩阵乘法，这种计算密集型操作随着模型规模增长会呈指数级上升。GPU相比CPU的优势在于其海量并行计算能力，通过CUDA平台可以同时启动数千个线程独立计算矩阵元素。GPU特别适合处理高并行、低分支、计算密集的任务，但并非所有计算都适合GPU加速。要充分发挥GPU性能，还需优化内存访问、线程组织等关键因素。理解GPU的并行计算原理，对深度学习开发和算力评估具有重要意义。

2026-01-18 11:04:34 47

转载 YOLO 模型训练显卡性能实测：如何选择合适的 GPU ？

本文对比测试了RTX3090、RTX4090和A100 40G三款显卡在YOLO模型训练中的性能表现。测试结果显示，A100凭借40GB大显存和较高带宽，在大batch_size训练中表现最优；4090在小batch_size下训练速度最快；3090性价比更高但性能相对落后。测试建议：普通训练可选3090/4090；大batch_size训练推荐A100。

2026-01-09 11:06:38 703

转载昇腾CANN与英伟达CUDA：AI框架与计算架构的关系

本文以华为昇腾CANN为例，探讨了AI框架与硬件的高效适配机制。文章剖析了昇腾计算架构的分层设计，从应用层、AI框架层（MindSpore、PyTorch等）、计算架构层（CANN）到硬件层（NPU），阐述了各层间的协作关系。重点分析了CANN如何通过算子库和通信库实现框架与硬件的适配，对比了CANN与CUDA的异同，指出CANN对昇腾NPU的专门优化优势。文章揭示了AI框架与硬件协同对提升计算效率的关键作用，展现了昇腾生态在AI计算领域的发展潜力。

2026-01-05 10:53:39 159

转载 Flux 2：并不惊艳，但可能是开源图像模型的重要转折点

Black Forest Labs 发布了他们最新的图像模型 Flux 2，这篇文章主要回答三个问题：Flux 2 背后到底是一项什么样的技术？它在当前图像生成模型体系中处在什么位置？它对未来的产品与研究，可能意味着什么？总体判断：Flux 2 不是好用的产品，但是一项扎实的研究。

2025-12-30 11:12:46 134

原创 A100 40G和魔改4090 48G模型训练算力比较

本文测试了魔改4090 48G显卡与原始4090 24G及A100 40G的性能差异。结果显示魔改4090显存翻倍后算力无折损，且支持更大BatchSize。在ResNet-50模型训练中，A100 40G在单精度训练时样本吞吐速度是4090 48G的125%，半精度训练时为105%。虽然A100作为专业卡仍有优势，但魔改4090凭借48G显存和强大算力，在中端市场展现出全面竞争力。测试参数包括FP32/FP16精度、BatchSize、样本吞吐量等指标。

2025-12-17 16:36:48 1228

转载 GROMACS分子动力学模拟计算显卡性能测试

本文测试了RTX 3080、3090、4090三款显卡在GROMACS分子动力学模拟中的性能表现。结果显示，GROMACS的性能同时受CPU和GPU影响，需要合理配置CPU核数才能充分发挥GPU算力。测试发现，4090在24核CPU下性能最佳（910 ns/day），但过多CPU核数（32核）反而会降低性能。此外，3080在小数据集场景下展现出较高的性价比。研究表明，选择GROMACS硬件配置时需综合考虑数据集大小、CPU性能与GPU算力的平衡。

2025-12-10 16:36:23 1035

转载 ComfyUI Wan2.2比较A100 40G和4090 48G算力性能

本文对比了A100 40G和4090 48G显卡在ComfyUI的Wan2.2文生视频工作流中的性能表现。测试结果显示，在显存充足的情况下（14B模型完全载入显存），4090 48G以50秒完成5秒480p视频生成，略快于A100 40G的53秒。4090的GPU利用率达96%，高于A100的91%，显存占用38GB也高于A100的32GB。结论表明，在该场景下4090 48G的算力表现优于A100 40G。

2025-12-03 13:44:11 665

转载使用vLLM多卡部署大模型测试推理性能

本文对比了3090和4090显卡在vLLM多卡推理场景下的性能表现。测试使用Qwen3-14B模型。结果显示：4090在1-16并发度下均优于3090，尤其在16并发时吞吐量提升达52.3%，耗时更稳定。4090凭借更强的核心和更大的L2缓存，在高并发场景下性能衰减更小。建议个人用户选择性价比高的3090，企业级应用则推荐性能更强的4090以获得更高的服务效率。

2025-11-27 09:57:43 1683

转载 ResNet-50模型实测深度学习场景显卡性能

测试对比了NVIDIA RTX 5090、4090和3090显卡在ResNet-50模型训练中的性能表现。结果显示，5090在FP32和FP16混合精度下的样本吞吐量分别为4090的1.5倍和3090的3.7倍左右。虽然5090需要适配新的软件环境，但其显著的性能提升使其具有较高性价比。测试参数包括显存使用、GPU利用率和训练吞吐量等指标。

2025-11-19 14:24:00 1109

转载比较4090和3090在ComfyUI的Wan2.2工作流的性能表现

本文对比了RTX 3090和4090显卡在ComfyUI中运行Wan2.2文生视频模型的性能表现。测试采用ComfyUI预置的14B模型工作流模板，通过API调用生成5秒视频。结果显示：3090平均耗时142.6秒，4090仅需59.4秒，4090速度约为3090的2.4倍。虽然两卡显存和GPU利用率相近，但4090性能优势与显卡参数差距相符，在视频生成场景表现显著优于3090。

2025-11-14 14:48:14 883

转载 vLLM大模型推理场景显卡性能实测

使用vLLM测试3090和4090显卡在不同并发场景下的性能表现。采用Qwen3:8b FP16模型，通过控制变量法测试1-16并发度下的推理性能。结果显示：1-8并发时4090性能稳定领先3090约17%，16并发时3090出现瓶颈而4090保持优势，吞吐量提升25%。测试指标显示4090在高并发场景具有更好的扩展性，显存和GPU利用率相近但计算效率更高。

2025-11-06 14:50:45 1096

原创 Ollama和vLLM大模型推理性能比较

Ollama和vLLM是大模型部署的两种主流工具。Ollama适合个人开发和资源受限环境，提供简单易用的本地体验；vLLM则适用于高并发生产环境，具有卓越的推理性能。在RTX3090上测试Qwen3-8B模型显示：低并发时两者性能接近，但随着并发量增加，vLLM优势显著。测试表明，对性能要求高的生产环境应选择vLLM，而轻量级开发可考虑Ollama。

2025-11-04 17:13:15 1075

原创魔改3080显卡在大模型推理场景的性能表现

RTX 3080 20G显卡是基于3080 10G魔改的卡，目前市面比较多得被用于小规模参数的大语言模型推理场景，被认为是性价比比3090还高的推理显卡。这里使用Ollama部署Qwen3模型进行推理场景的性能实测，比较3080 20G和3090 24G的差异到底多大？

2025-10-30 14:49:54 2562

原创 Ollama大模型推理场景显卡性能比较

使用Ollama的快速模型部署，来实测英伟达的RTX 3090和RTX 4090这两张显卡，在大语言模型推理场景中的性能差异。选择 Qwen3的模型进行测试，考虑到3090和4090的显存都是24GB，分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。

2025-10-24 11:51:05 1841

原创使用PyTorch进行显卡AI性能实测

基于显卡产品规格的纸面数据，在实际应用中，特别是AI方面的应用，各种显卡的实际性能到底如何，或者如何更有效地从应用的角度测试显卡的性能？我们选择了英伟达的RTX 3090和RTX 4090两张显卡，基于实际模型训练的场景下实测性能来比较下被称为「上一代卡皇」的 3090 和「当前消费级主力」的 4090 的实际性能到底差多少。

2025-10-20 20:20:54 841

原创选择显卡时需要关注哪些参数

AI时代GPU算力已经变成了普遍的需求，那么在购买显卡或者租用GPU云算力的时候，怎么选择合适的显卡呢，需要关注哪些参数？

2025-10-10 17:15:38 482

ai_hpc_trivia的博客