目录
美图的AIGC之旅
美图是一家以美为内核、以人工智能为驱动的科技公司,主要包括两部分业务:一是影像与设计产品,如美图秀秀、美颜相机、wink等;二是美业解决方案,包括美图宜肤、美图魔镜等。
2017年,美图曾因“手绘自拍”功能风靡欧美,还推出了全球首款智能绘画机器人Andy。2022年底,美图上线AI绘画服务,并迅速在网络走红,此时美图也开启了算力追寻之路。
2023年6月,美图一口气发布以美图视觉大模型为核心的七款产品,包括AI口播视频工具开拍、桌面端AI视频编辑工具WinkStudio、AI数字人生成工具DreamAvatar等。
在AI智能领域进行一番探索后,美图总结出了AIGC的业务特点:第一,传播速度很快,留给公司的反应时间很短;第二,数据增长迅猛,容易产生爆款,对资源的需求量很大、很急迫;第三,企业如果想要快速抢占市场获得竞争优势,就需要在资源交付方面投入更多。
多元算力的选择和应用
美图AIGC的算力组成主要以GPU为主,包括T4、V100、A10组成推理集群的基础,A800、A100、H100组成大模型训练集群的基础框架。AIGC业务最火爆的时候,美图的GPU资源非常紧缺,因此也选择了部分NPU作为GPU算力的补充。
有了算力之后,我们首先会做一个全面的基准测试,它能够加速我们对GPU资源差异性的认知,同时也提供了可靠的数据帮助算法研发团队在算力选择以及算法优化上找到方向。
美图在面对多元算力的选择时,遇到了很多挑战:第一,多元算力的管理和维护工作很复杂;第二,在资源调度及优化方面需要投入更多建设;第三是兼容性的问题,美图在适配华为云昇腾这种异构算力时,在平台和算法适配方面投入很大的人力成本;第四,供应链方面,GPU厂商提供的高性能算力有限,而且会分散在不同的区域,这样就需要在资源管理方面加大投入;第五,采用多云架构,需要在故障管理、灾备、稳定性运行、性能、成本权衡等方面重点发力。
多云资源交付
美图在多云资源交付方面也面临颇多挑战。
第一是资源方面的需求量巨大,包括计算、存储、网络等方面的资源;第二,随着项目运营、社区传播活动的推进,业务数据可能面临爆发式增长,这时就需要具备高效的弹性伸缩能力;第三,对于性能的要求非常高,包括基础资源GPU以及高性能存储、网络等;第四,交付周期紧张,需要在短时间内交付一套或者多套完整可用的生产服务。
面对这一系列挑战,美图内部制定了一个交付标准,其中包括厂商交付、内部交付和持续协作能力,确保交付流程的顺畅。
厂商交付方面,我们制定了一份名为AIGC项目GPU资源供应商必备资质的清单。清单内容包括我们在