- 博客(22)
- 收藏
- 关注
原创 4080 Super 32GB 魔改显卡与 3090 和 4090 的对比
对比 RTX 4080 Super 32GB 魔改版、3090 与 4090 在 AI 推理与训练场景中的实际表现,分析显存容量、显存带宽与 Tensor 算力的差异,给出万元级 GPU 的选型建议,适合有本地大模型部署需求或算力预算规划的开发者参考。
2026-03-26 09:49:58
349
原创 Prompt、Agent、MCP 和 Skills:大模型时代的工具栈到底在干嘛
本文用清晰的问题链,把 Prompt、Agent、Function Calling、MCP 和 Skills 这几个常被混淆的大模型概念串联起来。从 system/user prompt 的分工讲起,到 Agent 如何调用工具、MCP 如何统一工具层通信,再到 Skills 与 MCP 的本质差异——不堆术语,只讲清楚它们各自在解决什么问题。
2026-02-27 10:33:37
594
原创 2025年GPU算力租赁市场总结
2025年中国GPU算力租赁市场突破千亿规模,从"抢卡"转向"拼交付"。价格雪崩超70%,H100降至15-20元/小时,A100仅3-5元/小时。推理需求崛起预计2028年占比73%,训练转向项目制。国产昇腾加速替代,液冷技术使PUE降至1.1。企业"增收不增利"成常态,竞争从价格战转向异构调度、生态服务。合规成硬门槛,交付能力被定价。市场从"量的扩张"到"质的提升"转折。
2026-02-19 19:49:55
1386
转载 vLLM:把一块 GPU 吃干榨尽的大模型推理引擎
vLLM是一款专注于提升大模型推理效率的开源引擎,通过PagedAttention和连续批处理两大核心技术显著提升GPU利用率。测试显示,在RTX 3090上运行Qwen3 8B模型时,vLLM在高并发场景下吞吐量可达传统方法的2-3倍,尤其适合API服务、成本敏感型业务和已有工程体系。其核心价值在于优化KV Cache管理和请求调度,使相同硬件支撑更多请求。建议从单卡测试开始,逐步集成到服务体系,是提升大模型推理性价比的有效解决方案。
2026-02-10 16:04:12
475
转载 RTX 5090 和 A100 怎么选:游戏卡与计算卡的真实差别
本文围绕 RTX 5090 和 NVIDIA A100 展开对比,重点分析两者在定位、双精度计算、AI 推理性能和大模型训练中的差异。A100 依托 HBM 显存和 NVLink,在高精度科研与多卡训练场景中优势明显;RTX 5090 在单精度算力和推理速度上更有优势,更适合 7B–32B 模型、本地推理与内容创作。选择哪张卡,取决于具体业务场景和长期使用规划。
2026-01-28 11:30:25
760
转载 RTX 4090 48GB 魔改版简评:翻倍显存,谁真的用得上?
RTX 4090 48GB魔改版显卡分析:显存翻倍带来AI生产力跃升 核心要点: 本质仍是4090架构,仅将显存从24GB提升至48GB,带宽保持1TB/s AI生图场景优势显著:可流畅运行复杂ComfyUI流程,支持高分辨率多阶段处理 大模型推理能力提升:单卡可运行32B模型,70B模型经量化后也能支持 定位介于消费卡与专业卡之间,适合AIGC创作者和大模型开发者 性价比评估:对高频AI用户值得考虑,普通用户24GB版已足够 该卡并非性能更强的游戏卡,而是面向AI工作负载优化的生产力工具。
2026-01-26 13:03:20
886
转载 GPU 单挑 CPU:从矩阵乘法到并行计算的入门
神经网络的核心运算是矩阵乘法,这种计算密集型操作随着模型规模增长会呈指数级上升。GPU相比CPU的优势在于其海量并行计算能力,通过CUDA平台可以同时启动数千个线程独立计算矩阵元素。GPU特别适合处理高并行、低分支、计算密集的任务,但并非所有计算都适合GPU加速。要充分发挥GPU性能,还需优化内存访问、线程组织等关键因素。理解GPU的并行计算原理,对深度学习开发和算力评估具有重要意义。
2026-01-18 11:04:34
47
转载 YOLO 模型训练显卡性能实测:如何选择合适的 GPU ?
本文对比测试了RTX3090、RTX4090和A100 40G三款显卡在YOLO模型训练中的性能表现。测试结果显示,A100凭借40GB大显存和较高带宽,在大batch_size训练中表现最优;4090在小batch_size下训练速度最快;3090性价比更高但性能相对落后。测试建议:普通训练可选3090/4090;大batch_size训练推荐A100。
2026-01-09 11:06:38
703
转载 昇腾CANN与英伟达CUDA:AI框架与计算架构的关系
本文以华为昇腾CANN为例,探讨了AI框架与硬件的高效适配机制。文章剖析了昇腾计算架构的分层设计,从应用层、AI框架层(MindSpore、PyTorch等)、计算架构层(CANN)到硬件层(NPU),阐述了各层间的协作关系。重点分析了CANN如何通过算子库和通信库实现框架与硬件的适配,对比了CANN与CUDA的异同,指出CANN对昇腾NPU的专门优化优势。文章揭示了AI框架与硬件协同对提升计算效率的关键作用,展现了昇腾生态在AI计算领域的发展潜力。
2026-01-05 10:53:39
159
转载 Flux 2:并不惊艳,但可能是开源图像模型的重要转折点
Black Forest Labs 发布了他们最新的图像模型 Flux 2,这篇文章主要回答三个问题:Flux 2 背后到底是一项什么样的技术?它在当前图像生成模型体系中处在什么位置?它对未来的产品与研究,可能意味着什么?总体判断:Flux 2 不是好用的产品,但是一项扎实的研究。
2025-12-30 11:12:46
134
原创 A100 40G和魔改4090 48G模型训练算力比较
本文测试了魔改4090 48G显卡与原始4090 24G及A100 40G的性能差异。结果显示魔改4090显存翻倍后算力无折损,且支持更大BatchSize。在ResNet-50模型训练中,A100 40G在单精度训练时样本吞吐速度是4090 48G的125%,半精度训练时为105%。虽然A100作为专业卡仍有优势,但魔改4090凭借48G显存和强大算力,在中端市场展现出全面竞争力。测试参数包括FP32/FP16精度、BatchSize、样本吞吐量等指标。
2025-12-17 16:36:48
1228
转载 GROMACS分子动力学模拟计算显卡性能测试
本文测试了RTX 3080、3090、4090三款显卡在GROMACS分子动力学模拟中的性能表现。结果显示,GROMACS的性能同时受CPU和GPU影响,需要合理配置CPU核数才能充分发挥GPU算力。测试发现,4090在24核CPU下性能最佳(910 ns/day),但过多CPU核数(32核)反而会降低性能。此外,3080在小数据集场景下展现出较高的性价比。研究表明,选择GROMACS硬件配置时需综合考虑数据集大小、CPU性能与GPU算力的平衡。
2025-12-10 16:36:23
1035
转载 ComfyUI Wan2.2比较A100 40G和4090 48G算力性能
本文对比了A100 40G和4090 48G显卡在ComfyUI的Wan2.2文生视频工作流中的性能表现。测试结果显示,在显存充足的情况下(14B模型完全载入显存),4090 48G以50秒完成5秒480p视频生成,略快于A100 40G的53秒。4090的GPU利用率达96%,高于A100的91%,显存占用38GB也高于A100的32GB。结论表明,在该场景下4090 48G的算力表现优于A100 40G。
2025-12-03 13:44:11
665
转载 使用vLLM多卡部署大模型测试推理性能
本文对比了3090和4090显卡在vLLM多卡推理场景下的性能表现。测试使用Qwen3-14B模型。结果显示:4090在1-16并发度下均优于3090,尤其在16并发时吞吐量提升达52.3%,耗时更稳定。4090凭借更强的核心和更大的L2缓存,在高并发场景下性能衰减更小。建议个人用户选择性价比高的3090,企业级应用则推荐性能更强的4090以获得更高的服务效率。
2025-11-27 09:57:43
1683
转载 ResNet-50模型实测深度学习场景显卡性能
测试对比了NVIDIA RTX 5090、4090和3090显卡在ResNet-50模型训练中的性能表现。结果显示,5090在FP32和FP16混合精度下的样本吞吐量分别为4090的1.5倍和3090的3.7倍左右。虽然5090需要适配新的软件环境,但其显著的性能提升使其具有较高性价比。测试参数包括显存使用、GPU利用率和训练吞吐量等指标。
2025-11-19 14:24:00
1109
转载 比较4090和3090在ComfyUI的Wan2.2工作流的性能表现
本文对比了RTX 3090和4090显卡在ComfyUI中运行Wan2.2文生视频模型的性能表现。测试采用ComfyUI预置的14B模型工作流模板,通过API调用生成5秒视频。结果显示:3090平均耗时142.6秒,4090仅需59.4秒,4090速度约为3090的2.4倍。虽然两卡显存和GPU利用率相近,但4090性能优势与显卡参数差距相符,在视频生成场景表现显著优于3090。
2025-11-14 14:48:14
883
转载 vLLM大模型推理场景显卡性能实测
使用vLLM测试3090和4090显卡在不同并发场景下的性能表现。采用Qwen3:8b FP16模型,通过控制变量法测试1-16并发度下的推理性能。结果显示:1-8并发时4090性能稳定领先3090约17%,16并发时3090出现瓶颈而4090保持优势,吞吐量提升25%。测试指标显示4090在高并发场景具有更好的扩展性,显存和GPU利用率相近但计算效率更高。
2025-11-06 14:50:45
1096
原创 Ollama和vLLM大模型推理性能比较
Ollama和vLLM是大模型部署的两种主流工具。Ollama适合个人开发和资源受限环境,提供简单易用的本地体验;vLLM则适用于高并发生产环境,具有卓越的推理性能。在RTX3090上测试Qwen3-8B模型显示:低并发时两者性能接近,但随着并发量增加,vLLM优势显著。测试表明,对性能要求高的生产环境应选择vLLM,而轻量级开发可考虑Ollama。
2025-11-04 17:13:15
1075
原创 魔改3080显卡在大模型推理场景的性能表现
RTX 3080 20G显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。这里使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大?
2025-10-30 14:49:54
2562
原创 Ollama大模型推理场景显卡性能比较
使用Ollama的快速模型部署,来实测英伟达的RTX 3090和RTX 4090这两张显卡,在大语言模型推理场景中的性能差异。选择 Qwen3的模型进行测试,考虑到3090和4090的显存都是24GB,分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。
2025-10-24 11:51:05
1841
原创 使用PyTorch进行显卡AI性能实测
基于显卡产品规格的纸面数据,在实际应用中,特别是AI方面的应用,各种显卡的实际性能到底如何,或者如何更有效地从应用的角度测试显卡的性能?我们选择了英伟达的RTX 3090和RTX 4090两张显卡,基于实际模型训练的场景下实测性能来比较下被称为「上一代卡皇」的 3090 和「当前消费级主力」的 4090 的实际性能到底差多少。
2025-10-20 20:20:54
841
原创 选择显卡时需要关注哪些参数
AI时代GPU算力已经变成了普遍的需求,那么在购买显卡或者租用GPU云算力的时候,怎么选择合适的显卡呢,需要关注哪些参数?
2025-10-10 17:15:38
482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅