4090单卡部署671B DeepSeek
“ 近期国内外都流行一股DeepSeek-R1部署热,大家都纷纷在自己的本地主机上面尝试着部署满血版本的DeepSeek-R1。然而,要部署一个完整的版本的DeepSeek-R1在本地,大概需要16张A800,大概会花费200百万左右的成本。产业界苦671B的大模型已久,希望能有一些低成本的满血版671B DeepSeek部署方案。小编今天给大家推荐一个框架-KTransformers,它支持在单台(24GB VRAM)/多gpu和382G DRAM上的Deepseek-R1和V3,速度提升3~28倍。这可能是很多朋友一直在寻找的东西吧,感兴趣的尽快收藏。”
项目主页-https://github.com/kvcache-ai/ktransformers/tree/main
代码链接-https://github.com/kvcache-ai/ktransformers/tree/main
01-DeepSeek-R1部署痛点梳理
近期国内外都流行一股DeepSeek-R1部署热,大家都纷纷在自己的本地主机上面尝试着部署满血版本的DeepSeek-R1。然而,要部署一个完整的版本的DeepSeek-R1在本地,大概需要16个A800,大概会花费200百万左右的成本。这高昂的部署成本直接劝退了很多人,然而仍然有一些财大气粗的公司花费了巨额资本部署了满血版本的DeepSeek-R1。
除此之外,大量的网友表示70B及以下的小模型效果与满血版本的性能差异较大。而微调模型的成本也比较高。由于上面的一些限制,导致满血版大模型的能力并不能很好的赋能更多的人。产业界苦671B的大模型已久,希望能有一些低成本的满血版671B DeepSeek部署方案。
02-ktransformers框架简介
KTransformers,发音为Quick Transformers,它旨在利用高级内核优化和放置并行来增强您的🤗 Transformers。
KTransformers是一个灵活的、以Python为中心的框架,其核心是可扩展性。通过利用一行代