OpenAI，Claude，Gemini御三家线上推理的杀手锏（Speculative Decoding）

最新推荐文章于 2024-11-12 09:34:08 发布

周博洋K

最新推荐文章于 2024-11-12 09:34:08 发布

阅读量760

点赞数 9

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/139087016

版权

本文探讨了如何构建类似OpenAI的高访问量在线推理任务，重点介绍了现代LLM推理任务的优化策略，如SRAM优化、KV缓存、模型压缩等。针对大模型推理速度慢的问题，提出了小模型（如20B参数量）结合投机采样（Speculative Decoding）的方法，通过小模型初步生成序列，大模型验证和修正，以减少计算资源消耗和提升效率。

摘要由CSDN通过智能技术生成

这章主要从工程化的角度上来讲，如何做一个跟OpenAI差不多级别访问量的线上推理任务。

现代的LLM推理任务优化，要是自己玩的话，基本分为4类

一类是让推理的数据尽量靠近SRAM，代表作是Dojo，Groq，Flash-attention

第二类就是KV cache类，主要是围绕着page attention等类似的方法来做，代表作就是vLLM，tgi（难用）

第三类就是各种围绕GGUF做的什么fastllm，llamacpp啥的，他们思路本身在模型和代码上也有优化，这几个东西要用上了基本都是弄quantized。

第四类其实是训练手段来做的优化，就是各种迁移学习，知识蒸馏啥的。

除了第一种和第二种，其他的往往代表着精度损失（其实flash-attention本来也和hf的模型推出来的东西有区别，不过大家没有不用的，就睁一眼闭一眼了），所以我说自己玩还行，线上就有点扯淡，当然这个时候不同的观点会说，量化完了以后的模型比原始模型损失也就几个百分点，相差不大，到这里我就会提一个尖锐的问题，你知道我为了提升几个百分百点的准确率，其实现在这么卷的环境下，别说几个百分点，就是一个百分点，背后都付出了多少算力，合成了多少数据？？？

最低0.47元/天解锁文章

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

周博洋K CSDN认证博客专家 CSDN认证企业博客

码龄7年

108: 原创

3万+: 周排名

1万+: 总排名

10万+: 访问

: 等级

3334: 积分

1601: 粉丝

2251: 获赞

15: 评论

1832: 收藏

私信

关注

热门文章

分类专栏

Gemini 1篇

最新评论

英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！
让Ilya都感到害怕的AGI是由什么东西创造出来的？
CSDN-Ada助手: 恭喜你写了第17篇博客！你对AGI的探讨让人印象深刻，也给了读者很多思考的空间。接下来，我建议你可以深入探讨AGI是如何被创造出来的，可以从技术、伦理等多个角度展开，这样可以让读者更全面地了解这个话题。希望你能继续保持创作的热情，期待你的下一篇博客！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。