7 月 5 日,快手 Y-tech 部门 AI 工程团队的崇洋铭在 GMTC 全球大前端技术大会(北京站)2021,做了题为《端侧 AI SDK 框架,爆款特效批量生产背后的秘密》的演讲。他从一系列酷炫的快手特效分享展开,结合具体落地案例,和大家分享了快手的计算机视觉技术在短视频特效和智能创作的 AI 工程化落地过程中,遇到的挑战、思考和实践。本文根据此次演讲整理。
作为国民短视频社区,快手平台平均日活跃用户 3.79 亿,全球月活跃用户达到 10 亿。在蓬勃发展的用户社区中,快手 Y-tech 部门研发的计算机视觉、计算机图形学、AR/VR 等 AI 能力,落地快手旗下各 App,为内容生产的各个环节提供智能创作的能力。
围绕这些 AI 能力的落地,我们分为四个部分展开:第一部分先介绍一下背景,包括效果展示、整体 AI 架构和存在的挑战。第二部分是快手的端上 AI SDK 的架构设计,设计思路包括统一接口、建设完善的公共库、功能模块化和插件化、以及统一运算流程。第三部分针对性能这个最大的挑战,来探讨一下我们的解决思路。整体上,通过图形图像库和模型分机型下发平台这两套方案,来分别解决前后处理和模型推理这两部分的性能瓶颈。细节上,我们结合三个具体案例,来分享一下通过多种时序模式、多线程框架和缓存设计来在不同的业务场景上提高性能。最后,我们谈谈对未来的展望。
背 景
这里展示了“童话公主”、“隐身衣”、“梵高星空”和“万物 AR”这四款魔法表情特效,精致效果的背后,每一款都用到了前沿且多能力复合的 AI 技术,包括生成式技术(GAN)、增强现实(AR)、人脸关键点、人像分割、天空分割等等。
录屏1_short_720.mov
其中,2020 年 11 月上线的 GAN 类玩法“童话魔法”,达到了数百万作品量和数十亿播放量。
录屏2_720.mov
除了特效拍摄,Y-tech 的 AI 能力还落地了多样的业务场景。编辑场景的“智能抠像”可以从视频片段中抠出人像、头部或天空;相机拍摄的“智能识物”可以扫一扫识别出场景中各个物体;相册场景的“一键出片”的可以从用户的相册中分析场景