浅谈大模型推理成本优化

全赞工程师

已于 2023-12-31 15:42:15 修改

阅读量1.4k

点赞数 43

文章标签：人工智能

于 2023-12-31 12:36:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quanzan/article/details/135314955

版权

本文讨论了大模型推理成本的优化方法，包括使用自建GPU游戏主机搭建推理集群，以及利用云厂商的竞价实例降低成本。作者还介绍了调度器和COG在其中的作用，以及通过用户自有GPU的可能性，以期望实现大模型推理的低成本甚至免费化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上回说了，全赞AI的应用里面有用到几十个大模型，我的其他的应用比如渣渣句，熊喵表情都会或多或少的用到一到两个大模型的推理。而众所周知，目前大模型的推理存在两个问题，一个是慢，一个是贵，慢的问题基本有赖于模型自身结构的优化才能从根本上解决，我暂时未研究这一块的内容，以后看看是否有推理框架能对大模型进行推理加速。本文主要讲一讲大模型推理成本的优化。

推理成本说的简单点，就是用户用你的大模型画一张图，你要花多少钱。这个怎么优化？我首先想到的是“自建机房”的思路，就是用自己闲置的带GPU的游戏主机，来搭个简易的推理集群，如下图所示。

家用主机是没有公网IP的，所以在Api网关和家用主机之间只能靠消息队列进行通信，这里如果有多台家用主机也没有关系，所有的游戏机都可以监听消息队列，然后率先拿到任务的机器来处理任务。这样用户用的请求就变成异步的了，用户第一次请求，只是告诉了系统，我需要文生图，然后系统返回给用户一个任务ID，接下来，用户需要每隔1秒钟拿着这个ID去询问我这个图画好了没有，直到家用游戏主机真正的把图画好之后才结束。

这个架构我也在线上跑了几个月，各种不适，主要是物理上的断电，机器太吵之类的，后来这个机器干脆自己冒白烟了，我赶紧把这个服务器停了。换成了下面这种看起来复杂很多的方案。

这个方案比较巧妙的地方是使用了各大云厂商的竞价实例来降低成本，并且能规模化，不管你后端用到多少个大模型，都可以用极低的价格搞定推理的事情。

首先我研发了一个调度器，它的功能就是根据用户的推理请求，分配相应规格的机器，比如用户说我要生成视频，调度器一查表，这个任务需要A100，然后再一查分配现状，发现没有A100在线上，那么需要找大厂调度了，于是用大厂的API问一下价格（标注上我只要竞价实例），发现腾讯现在没有A100的竞价实例，阿里的A100只要2元/小时，于是果断的对阿里说，这个A100我要了，开一个小时先。
得先在腾讯云和阿里云，华为云等各大厂商那里安排一个驻场的（SpotAgent）,这就是一个云服务器启动模板，一旦调度器发请求给阿里云，这个SpotAgent就会起起来。阿里云的SpotAgent起来后会监听消息队列，它发现有个任务是文生视频，于是它果断的去拉取文生视频的镜像下来开始做推理。
不得不提一下COG，replicate/cog: Containers for machine learning (http://github.com)，这个是专为机器学习模型开发的容器，它让所有的模型都能被标准化的安装，标准化的推理。
用户还是老样子，先发请求拿到个任务ID，但是第一个用户要忍受冷启动的问题（5分钟），然后不停的轮询他的任务做完没有。

这个计算架构能节省50%-80%之多的GPU账单，可能我这儿一公开，大厂的竞价实例GPU要卖断货了。我最近还在想如何用户自己的GPU做我们的推理服务器，如果这个事情能做成，并且能规模化，那大模型真的就可以做到免费了。

全赞工程师

博客等级

码龄2年

39
原创

554
点赞

308
收藏

442
粉丝

关注

私信

热门文章

最新评论

全赞AI出海首战失利，家人们谁懂？
CSDN-Ada助手: 非常感谢您持续不断地创作博客，第20篇文章的标题非常吸引人。AI出海首战失利确实是一个备受关注的话题，不过家人们可能需要更多的解释和理解。希望您可以继续坚持创作，不断提升自己的观点和写作技巧，为读者呈现更多有价值的内容。祝贺您，并期待您下一篇博客的发布！
如果把北大、清华的所有课程录像公开到网络上让全民都能学习，会导致什么结果？
CSDN-Ada助手: 恭喜您写了第17篇博客，话题很有深度，也很有启发性。如果把北大、清华的所有课程录像公开到网络上让全民都能学习，会导致的结果确实是一个很有意思的话题。不过，或许您可以考虑加入一些关于教育资源开放性的讨论，以及对于教育公平性的探讨，或许会给读者带来更多的思考。期待您的下一篇博客！
诸位怎样看待实业救国，虚拟经济误国的说法？
CSDN-Ada助手: 非常感谢您的辛勤创作，恭喜您完成了第15篇博客！标题引人深思，实业救国与虚拟经济误国的讨论确实是一个引人关注的话题。实业作为国家经济发展的基础，确实扮演着重要的角色，而虚拟经济的存在也不可忽视。在我看来，实业救国和虚拟经济误国并不是完全对立的概念，而是需要在平衡中寻找共存之道。对于实业救国来说，我们应该重视实体经济的发展，提高制造业水平和产品质量，促进国家经济的可持续发展。而虚拟经济则是时代发展的产物，具有其独特的优势，如提高效率、拓宽市场、创造就业机会等。因此，我们应该通过合理引导和政策支持，将实业与虚拟经济相结合，实现双赢的局面。对于您的下一步创作，我建议您可以从实际案例入手，深入挖掘实业救国和虚拟经济误国的相关问题。可以通过对比分析不同国家或地区的经济发展模式，探讨实业与虚拟经济之间的互动关系，并提出具体建议以促进国家经济的可持续发展。期待您在未来的创作中能够带给我们更多有价值的思考和观点。再次恭喜您，祝愿您的博客越来越好！
＜全赞工程师＞ - 一个有点技术的公众号
CSDN-Ada助手: 恭喜您撰写了第14篇博客！看标题就知道这是一个有点技术的公众号，让人期待不已。我很欣喜看到您持续创作，您的努力和热情真的令人敬佩。希望您能继续保持这种激情，分享更多有关技术的知识和见解。如果可以的话，我希望在下一篇博客中，您能探讨一些有关新兴技术的趋势和应用案例，这将让我们更加受益。感谢您的付出，期待您的下一篇作品！
全赞AI - 给每个人插上创意的翅膀
CSDN-Ada助手: 非常感谢作者持续创作，分享关于AI的文章。标题“全赞AI - 给每个人插上创意的翅膀”非常吸引人，让人期待阅读文章内容。希望作者在未来的创作中能够继续深入探讨AI对创意的影响，并结合实际案例进行分析和展示，以便更好地启发读者的思考。期待作者的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。