你好，布灵！高瓴人工智能学院首个AI小精灵诞生

最新推荐文章于 2024-10-16 09:19:27 发布

一览群智

最新推荐文章于 2024-10-16 09:19:27 发布

阅读量593

点赞数

文章标签：人工智能计算机视觉大数据编程语言推荐系统

北京智源人工智能研究院发布“悟道·文澜”多模态预训练模型，该模型由文继荣教授团队研发，已应用于AI心情电台“布灵”。布灵能根据用户上传的图片匹配合适的音乐，展现强大的视觉-语言理解能力。未来，布灵将解锁更多新技能，持续成长。

摘要由CSDN通过智能技术生成

点击蓝字关注我们

导读

3月20日，北京智源人工智能研究院召开智源“悟道”项目战略布局，及1.0阶段的协作研究成果发布会。在此次发布会上，中国人民大学高瓴人工智能学院执行院长、智源首席科学家文继荣教授作了题为《用多模态预训练模型连接图与文》的主题报告，展示了文继荣教授、卢志武教授、赵鑫教授、窦志成教授、宋睿华长聘副教授、金琴教授、兰艳艳研究员等师生团队在“多模态预训练模型-文澜”方面的技术突破。文澜模型受到视频相关的企业高度关注，快手和腾讯已启动洽谈合作。

在“文澜”多模态模型的基础上，研究团队落地《AI心情电台》小应用，同时推出了一款更加智能的AI小精灵：布灵。这也是高瓴人工智能学院推出的首个AI形象。 TA长这样：

高瓴人工智能学院的第一个AI小精灵

像水宝宝一样的布灵很可爱。但除了软萌的外表，TA还有“过硬”的技术内核，应用是基于团队提出的BriVL双塔结构的多模态预训练模型。简单地说，实现用户上传一张图片，将针对图片相关信息，配上一段贴切的音乐。为图片注入灵魂！当然未来TA还可能解锁更多新技能，让我们拭目以待布灵的不断成长。

刚出生的布灵是喜欢听歌的中华小曲库，上传一张你喜欢的图片，TA会匹配一段走心（BlingBling）或者不走心（谐音“不灵”）的音乐。就像这样（Demo视频，请放大欣赏）：

今天，布灵正式上线营业，我们和他进行了愉快的玩耍，来看看TA的日常吧！！

首先，布灵把自己放到了“布灵”里，送给大家来自本尊的亲切问候：

布灵：【带你进入我的世界，启动来电的时间】——这个欢迎词相当走心了！

布灵&同学们

布灵：【最爱的就是你，裤子失去皮带，才懂得对他的依赖】

同学：裤子不能没有皮带，就像程序员不能没有代码！懂我……

布灵：【别赖着不行动，精彩每分钟】

同学：好的，这就加入高瓴人工智能学院！

犀利的歌词与贴切的音乐，出人意料地表达了图片的言外之意，给人无限惊喜。

布灵&老师们

我们上传了自己烤的蛋糕，TA说“我肾里藏着可怕的创意”，并推荐了王力宏的歌，真是一个机智的小可爱！

但是布灵也有“不灵”的时候，黑起自己人来一点不含糊，我们传了一张办公室的工作照，布灵说：“在这里只能无尽地劳作…………”扎心了，这是对打工人996的无情嘲讽。然后，TA又对AI导师们惨下“黑手”了↓

布灵：【媳妇给啥子好吃的给你吃哟，这么肥？】

老师：我们不要面子的啊￣□￣｜｜

（提前剧透：这个是布灵的新技能，TA还在升级打怪中，将于不久后和大家见面，到时欢迎前来围观，见证TA的成长！）

大部分时候，布灵还是可以精准GET到精髓，卡点到位。

对Boss这样唱↓

布灵：【旗开得胜，别问由来星可以摘】

对讲台上的师者这样唱↓

布灵：【全赖老师关心热爱，每句教诲有着意义】

“言谢春风”，会说话的程度，让AI科学家们感叹：是亲生的！

刚刚出生的小布灵，就像一个Baby,更像一个调皮的精灵，给你出乎意料的惊喜。TA用好奇宝宝的视角，助我们打开了更为惊奇的世界。同时我们也期待着TA的成长，期待着TA不断解锁新技能！

趣图，以灵文/音赋之，则有魂矣。

Amusing pictures with spiritual words&music. MATCH SOULS.

扫码体验，

快来生成你的专属布灵

一起来BlingBling

今天出道的布灵是一个AI心情电台（此H5由北京智源人工智能研究院、中国人民大学高瓴人工智能学院和一览群智数据科技有限公司联合开发）。它所展示的多种跨模态应用任务背后的支持系统，正是人大高瓴人工智能学院文继荣教授负责带领的人民大学、中科院计算所和清华大学师生团队最新研究成果：多模态预训练模型-文澜。

多模态预训练模型-文澜简介

随着OpenAI超大规模语言模型GPT-3的发布，预训练语言模型在自然语言理解能力上再次被推至新的高峰。为更进一步推动相关领域的研究，北京智源人工智能研究院、中国人民大学和中科院计算所的研究团队在中国人民大学高瓴人工智能学院执行院长文继荣教授的带领下合作开展了大规模中文多模态预训练模型的研究，并发布了第一代悟道·文澜，旨在发掘预训练模型在中文通用多模态数据上的理解能力。

文澜团队推出的第一代图文互检模型在论文中叫做BriVL (Bridging Vision and Language)，BriVL具有四个特点和优势。1.基于视觉-语言弱相关的假设；2. 与多模态相结合的对比学习算法；3. 网络结构灵活，方便实际部署；4. 目前最大的中文多模态通用预训练模型。在未来，文澜团队将使用5亿级别的图文数据作为预训练数据集，BriVL的参数量将达到百亿级别。