一览群智率先开启多模态预训练“大模型”的落地应用,深度探索行业价值

北京智源人工智能研究院发布“悟道·文澜”超大规模多模态预训练模型,一览群智基于此推出智空平台,实现在图像文本生成、智慧城市、个人相册智能搜索等领域的产业应用,展示多模态预训练模型的落地价值。
摘要由CSDN通过智能技术生成

f50b61d4ef11310548d252dca4c92967.png

3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”。北京市科委、中关村管委会副主任许心超出席会议并致辞。北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者,美团、快手、搜狗、360、一览群智、循环智能等AI企业,以及新华社等应用机构代表参会。

8fe9b2247bde6c04d2edbc7a521b6b2b.png

随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新的高峰。发布会上,中国人民大学高瓴人工智能学院执行院长、智源首席科学家、一览群智首席科学家文继荣教授作了题为《用多模态预训练模型连接图与文》的主题报告,发布了第一代“悟道·文澜”,旨在发掘预训练模型在中文通用多模态数据上的理解能力,并展示了“多模态预训练模型-文澜”方面的技术突破。

“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。

据悉,“悟道·文澜”模型参数量达10亿,基于从公开来源收集到的5000万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。目前,该模型性能已经到达国际领先水平,在中文公开多模态测试集AIC-ICC的图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,得分比目前流行的UNITER模型高出20%。

为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智,推出“AI心情电台”小程序利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。

8ed8cf39ae9a4b9cbc742cf70e07eb32.png

布灵-为图片赋予音乐的灵魂

用户随便上传一张图片后,布灵为用户配上一首符合意境的歌。《AI心情电台》是使用BriVL提取图像和文本特征,接着进行图文检索,将图片和歌词特征进行匹配,并将歌词准确定位到最符合图片特征的歌词位置。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值