快手将GPU推理在商业化场景全量落地，机器成本优化超20%

快手技术团队

于 2020-11-25 11:52:06 发布

阅读量9.1k

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kwai_tech/article/details/110122212

版权

快手将GPU推理应用于大规模稀疏场景，解决了CPU推理服务在模型加宽加深后的资源消耗问题。通过融合CPU和GPU硬件优势，实现端到端训练到推理，并优化计算流水，提升硬件利用率。通过这种方式，快手降低了20-30%的机器成本，同时保证了服务质量。

摘要由CSDN通过智能技术生成

快手日活已超 3 亿，直播日活达 1.7 亿 +，快手之夜单场活动快手官方直播间累计观看总人数就超过 9000 万。随着业务规模的不断扩张，快手商业化进程也随之加速，单场直播最高成交额 12.5 亿，8 月电商订单总量达 5 亿。巨大的商业价值和潜力吸引越来越多的广告主来到快手做营销。为了应对日益激增的营销素材，快手不断提升底层计算能力，率先将 GPU 推理应用到大规模稀疏场景中，在提高机器性能、节约成本的同时，为广告主提供了更加有效的营销效果。

2019 年开始，快手商业化进程开始加快，底层计算能力持续面临挑战：

一方面，随着业务的发展，业务形态越来越丰富，流量越来越高，广告主对推荐质量的要求越来越高，模型变宽变深，算力的消耗急剧增加；
另一方面，在广告推荐场景下主要使用 DNN 模型，涉及大量稀疏特征 embedding
和神经网络浮点运算。作为访存和计算密集型的线上服务，在保证可用性的前提下，要满足低延迟、高吞吐的要求，对单机算力也是一种挑战。

上述算力资源需求和空间的矛盾，如果不解决好，对业务的发展会带来很大的限制：在模型加宽加深前，纯 CPU 推理服务能够提供可观的吞吐，但是在模型加宽加深后，计算复杂度上升，为了保证可用性，需要消耗大量机器资源，导致大模型无法大规模应用于线上。

目前行业比较通用的解决办法是利用 GPU 来解决这个问题。GPU 本身比较适合高吞吐、对延迟不太敏感的计算任务，在业界应用中，主要用于图像、语音或者离线训练等场景。

对于推荐、广告等场景使用的大规模稀疏模型，我们需要解决如下挑战：如

最低0.47元/天解锁文章

快手技术团队

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。