快手日活已超 3 亿,直播日活达 1.7 亿 +,快手之夜单场活动快手官方直播间累计观看总人数就超过 9000 万。随着业务规模的不断扩张,快手商业化进程也随之加速,单场直播最高成交额 12.5 亿,8 月电商订单总量达 5 亿。巨大的商业价值和潜力吸引越来越多的广告主来到快手做营销。为了应对日益激增的营销素材,快手不断提升底层计算能力,率先将 GPU 推理应用到大规模稀疏场景中,在提高机器性能、节约成本的同时,为广告主提供了更加有效的营销效果。
2019 年开始,快手商业化进程开始加快,底层计算能力持续面临挑战:
- 一方面,随着业务的发展,业务形态越来越丰富,流量越来越高,广告主对推荐质量的要求越来越高,模型变宽变深,算力的消耗急剧增加;
- 另一方面,在广告推荐场景下主要使用 DNN 模型,涉及大量稀疏特征 embedding
和神经网络浮点运算。作为访存和计算密集型的线上服务,在保证可用性的前提下,要满足低延迟、高吞吐的要求,对单机算力也是一种挑战。
上述算力资源需求和空间的矛盾,如果不解决好,对业务的发展会带来很大的限制:在模型加宽加深前,纯 CPU 推理服务能够提供可观的吞吐,但是在模型加宽加深后,计算复杂度上升,为了保证可用性,需要消耗大量机器资源,导致大模型无法大规模应用于线上。
目前行业比较通用的解决办法是利用 GPU 来解决这个问题。GPU 本身比较适合高吞吐、对延迟不太敏感的计算任务,在业界应用中,主要用于图像、语音或者离线训练等场景。
对于推荐、广告等场景使用的大规模稀疏模型,我们需要解决如下挑战:如