AI-信息资料库
文章平均质量分 93
木卫二号Coding
悟饭,你也变强了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Fastllm+CPU+GPU混合推理+支持到P100、MI50等老卡
fastllm是一个高性能全功能大模型推理库,采用C++自有算子替代PyTorch实现,支持Qwen、Llama、Phi等稠密模型及DeepSeek、Qwen-moe等MOE模型。该库兼容多种硬件平台(包括Nvidia、AMD显卡及国产芯片),支持FP8推理和动态量化,可在单卡上运行DeepSeek R1 671B等大模型。 主要特点包括: 安装简单,支持pip一键安装 支持CPU+GPU混合推理MOE大模型 提供多卡张量并行和GPU+CPU混合并行 支持动态Batch和流式输出 兼容多种硬件架构(ROCM转载 2025-10-24 11:07:28 · 504 阅读 · 0 评论 -
用 Tesla V100 32GB 测试了本地 LLM:它是否依然可行?
摘要:本文测试了NVIDIA Tesla V100 32GB显卡在2025年运行量化大语言模型的性能表现。测试显示,V100凭借32GB HBM2显存和高带宽,能流畅运行30B参数模型(70K上下文)和49B参数模型(7K上下文),生成速度分别达12.32和17.66 token/秒。相比RTX 3090等消费级显卡,V100在显存容量和长上下文处理上优势明显,但推理速度较慢且面临CUDA支持终止问题。结论指出,若以1100美元以下价格购得,V100仍是追求大模型/长上下文用户的性价比之选,但需考虑散热和未翻译 2025-12-01 19:10:37 · 681 阅读 · 0 评论
分享