点击蓝字 关注我们
导读
3月20日,北京智源人工智能研究院召开智源“悟道”项目战略布局,及1.0阶段的协作研究成果发布会。在此次发布会上,中国人民大学高瓴人工智能学院执行院长、智源首席科学家文继荣教授作了题为《用多模态预训练模型连接图与文》的主题报告,展示了文继荣教授、卢志武教授、赵鑫教授、窦志成教授、宋睿华长聘副教授、金琴教授、兰艳艳研究员等师生团队在“多模态预训练模型-文澜”方面的技术突破。文澜模型受到视频相关的企业高度关注,快手和腾讯已启动洽谈合作。
在“文澜”多模态模型的基础上,研究团队落地《AI心情电台》小应用,同时推出了一款更加智能的AI小精灵:布灵。这也是高瓴人工智能学院推出的首个AI形象。 TA长这样:
高瓴人工智能学院的第一个AI小精灵
像水宝宝一样的布灵很可爱。但除了软萌的外表,TA还有“过硬”的技术内核,应用是基于团队提出的BriVL双塔结构的多模态预训练模型。简单地说,实现用户上传一张图片,将针对图片相关信息,配上一段贴切的音乐。为图片注入灵魂!当然未来TA还可能解锁更多新技能,让我们拭目以待布灵的不断成长。
刚出生的布灵是喜欢听歌的中华小曲库,上传一张你喜欢的图片,TA会匹配一段走心(BlingBling)或者不走心(谐音“不灵”)的音乐。就像这样(Demo视频,请放大欣赏):
今天,布灵正式上线营业,我们和他进行了愉快的玩耍,来看看TA的日常吧!!
首先,布灵把自己放到了“布灵”里,送给大家来自本尊的亲切问候:
布灵:【带你进入我的世界,启动来电的时间】——这个欢迎词相当走心了!
布灵&同学们
布灵:【最爱的就是你,裤子失去皮带,才懂得对他的依赖】
同学:裤子不能没有皮带,就像程序员不能没有代码!懂我……
布灵:【别赖着不行动,精彩每分钟】
同学:好的,这就加入高瓴人工智能学院!
犀利的歌词与贴切的音乐,出人意料地表达了图片的言外之意,给人无限惊喜。
布灵&老师们
我们上传了自己烤的蛋糕,TA说“我肾里藏着可怕的创意”,并推荐了王力宏的歌,真是一个机智的小可爱!
但是布灵也有“不灵”的时候,黑起自己人来一点不含糊,我们传了一张办公室的工作照,布灵说:“在这里只能无尽地劳作…………”扎心了,这是对打工人996的无情嘲讽。然后,TA又对AI导师们惨下“黑手”了↓
布灵:【媳妇给啥子好吃的给你吃哟,这么肥?】
老师:我们不要面子的啊 ̄□ ̄||
(提前剧透:这个是布灵的新技能,TA还在升级打怪中,将于不久后和大家见面,到时欢迎前来围观,见证TA的成长!)
大部分时候,布灵还是可以精准GET到精髓,卡点到位。
对Boss这样唱↓
布灵:【旗开得胜,别问由来星可以摘】
对讲台上的师者这样唱↓
布灵:【全赖老师关心热爱,每句教诲有着意义】
“言谢春风”,会说话的程度,让AI科学家们感叹:是亲生的!
刚刚出生的小布灵,就像一个Baby,更像一个调皮的精灵,给你出乎意料的惊喜。TA用好奇宝宝的视角,助我们打开了更为惊奇的世界。同时我们也期待着TA的成长,期待着TA不断解锁新技能!
趣图,以灵文/音赋之,则有魂矣。
Amusing pictures with spiritual words&music. MATCH SOULS.
扫码体验,
快来生成你的专属布灵
一起来BlingBling
今天出道的布灵是一个AI心情电台(此H5由北京智源人工智能研究院、中国人民大学高瓴人工智能学院和一览群智数据科技有限公司联合开发)。它所展示的多种跨模态应用任务背后的支持系统,正是人大高瓴人工智能学院文继荣教授负责带领的人民大学、中科院计算所和清华大学师生团队最新研究成果:多模态预训练模型-文澜。
多模态预训练模型-文澜简介
随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新的高峰。为更进一步推动相关领域的研究,北京智源人工智能研究院、中国人民大学和中科院计算所的研究团队在中国人民大学高瓴人工智能学院执行院长文继荣教授的带领下合作开展了大规模中文多模态预训练模型的研究,并发布了第一代悟道·文澜,旨在发掘预训练模型在中文通用多模态数据上的理解能力。
文澜团队推出的第一代图文互检模型在论文中叫做BriVL (Bridging Vision and Language),BriVL具有四个特点和优势。1.基于视觉-语言弱相关的假设;2. 与多模态相结合的对比学习算法;3. 网络结构灵活,方便实际部署;4. 目前最大的中文多模态通用预训练模型。在未来,文澜团队将使用5亿级别的图文数据作为预训练数据集,BriVL的参数量将达到百亿级别。
论文地址: https://arxiv.org/abs/2103.06561
多模态首页: https://model.baai.ac.cn/model/wl
关于模型的的具体特点与优势、模型基本架构、实验分析、结果展示、下游应用、文澜API文档、研发团队介绍及参考资料等更多详尽阐述,点击查阅论文解读↓
悟道·文澜:北京智源研究院、人大、中科院联手打造的超大规模多模态预训练模型!
现阶段的“文澜”已初具规模,具备强大的视觉-语言检索能力和一定的常识理解能力。它的实验结果也证明,可以实现用文本检索图像,以及用图像生成文本的功能。同时它的下游任务还可以实现:
基于图像的文本生成
BriVL在AIC-ICC+MSCoCo+Flickr30数据集上,以图片生成标题为任务,进行微调。生成的结果如下:
生成文本:一个穿戏服的男人和一个穿戏服的女孩在一起
为图像打标签
用BriVL模型在动漫数据集danboru上进行微调,为动漫图像自动打标签,得到的结果如下所示:
灰色围巾,屋顶,双手插在口袋里,多云的天空,大衣
鸟,围巾,云,天空,长袖,微笑,长发
基于BriVL模型,可以开发多款跨模态应用。在BriVL的基础上,文澜团队开发了H5小应用《AI心情电台》。
《AI心情电台》——为图片赋予音乐的灵魂
用户上传一张图片后,布灵会为用户配上一首符合意境的歌。《AI心情电台》也是使用BriVL提取图像和文本特征,接着进行图文检索,将图片和歌词特征进行匹配,并将歌词准确定位到最符合图片特征的歌词位置。《AI心情电台》即是本次高瓴人工智能学院推出的AI小精灵:布灵。布灵的初心是期待做用户的灵魂DJ。
除了隆重介绍的AI小精灵布灵—《AI心情电台》
文继荣教授团队成果文澜多模态预训练模型
还将推出哪些后续优秀应用呢?
不断成长中的布灵又会get 哪些新技能?
小精灵布灵的兄弟姐妹是否也会相继出道?
让我们拭目以待,期待TA们的惊艳亮相!
相关链接
点击查阅论文解读