雷递网 乐天 3月13日
生数科技日前宣布完成新一轮数亿元融资,本轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。
据介绍,生数科技成立于2023年3月,是一家多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。
生数科技核心团队来自清华大学人工智能研究院,还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资。
从Sora的惊艳亮相到最强文生图模型Stable Diffusion 3的推出,两者采用的Diffusion Transformer架构DiT备受关注。
所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的优势进行融合,能在视觉任务下展现出涌现能力。
DiT架构由伯克利团队于2022年12月发表。
生数科技称,早在2022年9月,公司创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。
当时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up),这项工作在CVPR 2023发表,早于DiT成为全球范围内最早被提出的Diffusion Transformer架构。
对扩散模型融合架构的前瞻创新源自于团队多年的深耕。团队从事生成式人工智能和贝叶斯机器学习研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
2023年3月,生数科技团队开源了首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。
此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。
图像生成效果
在统一化架构思路下,生数科技进行Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。
依托底层U-ViT架构的创新尝试,截至2023年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版)。
图生3D案例(上图为输入图片,下图为对应3D模型)
生数科技称,3D生成可实现高精度与最快10秒级的模型生成,并推出全球首个4D动画生成、可控3D场景编辑等工作。视频生成已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。
短视频生成案例
生数科技还积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,并搭建了完整的数据管理和使用体系。从算法原理、算法架构,到工程实现、数据准备,生数科技打造了多维度、全方位的基础建设,这为后续多模态大模型,尤其长视频生成的训练奠定了重要基础。
在商业化落地方面,依托于MaaS(模型即服务)能力,生数科技在To B、To C端同时发力,一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面能力。
生数科技还于2023年上线两款工具产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域提供赋能,提升创作效率,同时为创作者提供源源不断的灵感和想象力。
一位投资人表示,大模型已从原来纯语言模态,逐步走向多模态的探索。
———————————————
雷递由媒体人雷建平创办,若转载请写明来源。