3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”。北京市科委、中关村管委会副主任许心超出席会议并致辞。北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者,美团、快手、搜狗、360、一览群智、循环智能等AI企业,以及新华社等应用机构代表参会。
随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新的高峰。发布会上,中国人民大学高瓴人工智能学院执行院长、智源首席科学家、一览群智首席科学家文继荣教授作了题为《用多模态预训练模型连接图与文》的主题报告,发布了第一代“悟道·文澜”,旨在发掘预训练模型在中文通用多模态数据上的理解能力,并展示了“多模态预训练模型-文澜”方面的技术突破。
“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。
据悉,“悟道·文澜”模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。目前,该模型性能已经到达国际领先水平,在中文公开多模态测试集AIC-ICC的图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,得分比目前流行的UNITER模型高出20%。
为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智,推出“AI心情电台”小程序,利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。
布灵-为图片赋予音乐的灵魂
用户随便上传一张图片后,布灵为用户配上一首符合意境的歌。《AI心情电台》是使用BriVL提取图像和文本特征,接着进行图文检索,将图片和歌词特征进行匹配,并将歌词准确定位到最符合图片特征的歌词位置。