本周AI热点回顾:Percy Liang、李飞飞等发布综述,阐述大模型机遇与风险;KDD 2021最佳论文等奖项出炉...

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

01

BERT、GPT-3们有了新名字:Percy Liang、李飞飞等发布200多页综述,阐述大模型机遇与风险

在一篇 200 多页的论文中,Percy Liang、李飞飞等斯坦福研究者系统阐述了大规模预训练模型背后的机遇与风险。他们还给这些模型取了一个统一的名字—— Foundation Model。

随着 BERT、DALL-E、GPT-3 等大规模预训练模型的出现,AI 社区正在经历一场范式转变。从计算机视觉到自然语言处理,从机器人学到推理、搜索,这些大模型已经无处不在,而且还在继续「野蛮生长」。

这种野蛮生长是大模型的有效性带来的必然结果。在 BERT 出现(2018 年)之前,语言模型的自监督学习本质上只是 NLP 的一个子领域,与其他 NLP 子领域并行发展。但在 BERT 横扫 11 项 NLP 任务之后,这种格局被打破了。2019 年之后,使用自监督学习构造语言模型俨然已经成为一种基础操作,因为使用 BERT 已经成为一种惯例。这标志着大模型时代的开始。

这一时代的重要标志是「同质化」。如今,NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且,这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。

毋庸置疑,这种同质化是有好处的,大模型的任何一点改进就可以迅速覆盖整个社区。但同时,它也带来了一些隐患,因为大模型的缺陷也会被所有下游模型所继承。

大模型的强大能力来自巨大的参数空间的结合,这也导致它们的可解释性非常差,其能力和缺陷都存在不确定性。在这种情况下,盲目将整个研究范式向大模型转变真的可取吗?

最近,斯坦福大学的 Percy Liang、Rishi Bommasani(Percy Liang 的学生) 、李飞飞等 100 多位研究者联名发布了一篇系统探讨此问题的论文。在论文中,他们给这种大模型取了一个名字——「基础模型(foundation model)」,并系统探讨了基础模型的机遇与风险。「基础」代表至关重要,但并不完备。

论文链接:https://arxiv.org/pdf/2108.07258.pdf

论文正文分为四个部分,分别阐述了基础模型的能力、应用、相关技术和社会影响,其具体内容如下:

  • 能力:语言、视觉、机器人学、推理、交互、理解等;

  • 应用:医疗、法律、教育等;

  • 技术:建模、训练、适应、评估、系统、数据、安全与隐私、稳健性、理论、可解释性等;

  • 社会影响:不平等、滥用、环境、法规、经济、伦理等。

这篇论文的问世将为负责任地发展、部署基础模型提供一些借鉴。

此外,斯坦福大学的师生、研究人员还成立了一个「基础模型研究中心(CRFM)」,这是斯坦福 HAI 的一个新的跨学科项目。8 月 23 日到 24 日,这两个组织将发起一场关于基础模型的 workshop,讨论基础模型的机遇、挑战、限制和社会影响。

workshop 链接:https://crfm.stanford.edu/workshop.html?sf149081997=1

信息来源:机器之心

02

KDD 2021最佳论文等奖项出炉,首尔大学、斯坦福获奖,北理工上榜

国际数据挖掘顶会 KDD 2021 刚刚放出了最佳论文等奖项,最受瞩目的最佳论文奖由首尔大学和斯坦福大学等机构的研究者分别摘得,最佳学生论文奖由维也纳大学的研究团队获得。

KDD 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

目前,KDD 2021 大会正在线上如火如荼地举行当中,议程包括主题演讲、专题小组、特邀报告、精选研究、workshop 等。大会共计收到 1541 篇有效投稿,其中 238 篇论文被接收,接收率为 15.4%,相比去年的接收率 16.9% 有所下降。

KDD 2021 线上开幕之前,多个奖项已经公布,包括创新奖、服务奖、学位论文奖(亚军及荣誉提名)、新星奖、时间检验研究奖和时间检验应用科学奖,其中北航校友 Xia “Ben” Hu (胡侠)获得了新星奖,字节跳动 AML 研究团队 Chong Wang 的一篇 KDD 2011 论文获得了时间检验研究奖。

刚刚,KDD 2021 公布了研究方向(research track)和应用数据科学方向(Applied Data Science Track)的最佳论文和最佳学生论文,具体如下:

  • 首尔大学研究者获得研究方向最佳论文奖

  • 斯坦福大学等机构的研究者获得应用数据科学方向最佳论文

  • 北京理工大学和美的集团的研究者获得应用数据科学方向最佳论文亚军

  • 维也纳大学的研究者获得研究方向最佳学生论文

研究方向最佳论文

今年的「研究方向最佳论文奖」由来自首尔大学的 Jun-gi Jang、U Kang 摘得,获奖论文是《Fast and Memory-Efficient Tucker Decomposition for Answering Diverse Time Range Queries》。

论文地址:https://dl.acm.org/doi/pdf/10.1145/3447548.3467290

信息来源:机器之心

03

PaddleVideo视频理解模型再下一城!PP-TSN重磅发布

在深度学习的CV领域中,有个重要的研究方向就是视频理解,简而言之,就是通过AI技术让机器可以理解视频内容,如今在短视频、推荐、搜索、广告,安防等领域有着广泛的应用和研究价值,像下面这种视频打标签、视频内容分析之类的任务都可以通过视频理解技术搞定!

视频相较于图像,具有额外的时间维度信息,因此如何更好地利用视频中的时序信息是视频领域研究的重点。目前常用的方法有三类:

  1. 使用RNN对视频特征做时序建模,如AttentionLSTM模型。这类模型的输入是视频特征,而不是原始视频,因此往往用作后处理模块。

  2. 使用3D网络提取时序信息。如SlowFast模型,创新性的使用Slow和Fast两个网络分支分别捕获视频中的表观信息和运动信息。这一方法在很大程度上是受到灵长类视觉系统中视网膜神经节细胞的生物学研究所启发。研究发现,在灵长类的视觉系统中,约80%是P细胞,15-20%是M细胞。M细胞以较高的频率工作,对时间变化更加敏感;P细胞则提供良好的空间细节和颜色感知。相应的,SlowFast模型的Slow分支类似于P细胞,感知空间信息;Fast分支类似于M细胞,对时间变化敏感。该模型在视频分类任务上取得了SOTA的效果,同时也是AVA 视频检测挑战赛的冠军模型。3D网络尽管在精度方面很有优势,但由于3D卷积计算量大,训练和推理耗时较长,难以用于产业实践。

  3. 使用2D网络提取时序信息,如经典的TSN模型。TSN模型采用“段共识”的操作融合多帧图像的特征信息,能将绝大部分原本用于图像分类的网络模型进行扩展,通过简单地修改输入形式,就能直接用于下游的视频分类任务上。给后续许多模型提供了一种通用的思路。

依托丰富的视频模型优化经验,飞桨PaddleVideo团队总结并完善了一套通用的视频模型优化策略,在提出PP-TSM之后,研发团队将这套策略应用于TSN模型并取得显著收益,研发出PP-TSN模型。在基本不增加计算量的前提下,PP-TSN使用Kinetics-400数据集训练的精度可以提升到75.06%,达到同等Backbone下的3D模型SlowFast的精度区间,且推理速度快5.6倍,在精度和性能的平衡上具有显著的优势。

信息来源:飞桨PaddlePaddle

04

ByT5:迈向无token的未来,基于T5架构的预训练字节级Transformer

近年来,最广泛使用的预训练语言模型都是基于单词或子单词单元的 token 序列进行操作的,而直接对原始文本(字节或字符)进行操作的无 token 模型有很多好处。在本篇论文中,谷歌研究者进行了大量实验,发布了一组新的基于 T5 架构的预训练字节级 Transformer 模型,并开源了所有代码和数据。

近年来,最广泛使用的预训练语言模型都是基于词或子词单元的 token 序列进行操作的。将文本编码为 token 序列需要一个通常作为模型的独立工件创建的 tokenizer。直接对原始文本(字节或字符)进行操作的无 token 模型有很多好处:它们可以开箱即用地处理任何语言的文本;它们对噪声更加鲁棒;它们通过删除复杂且容易出错的文本预处理 pipeline,将技术债务最小化。由于字节或字符序列比 token 序列长,过去经常在无 token 模型上引入新的模型架构,旨在分摊直接在原始文本上操作的成本。

在本篇论文中,谷歌研究者证明了一个标准的 Transformer 架构是可以在最少修改的情况下处理字节序列的。研究者仔细描述了参数计数、训练 FLOP、推理速度方面的权衡,并表明字节级模型与其 token 级模型的竞争力,还证明了字节级模型对噪声的鲁棒性明显更强,并且在对拼写和发音敏感的任务上表现更好。最后,研究者发布了一组新的基于 T5 架构的预训练字节级 Transformer 模型,并开源了实验中使用的所有代码和数据。

论文链接:https://arxiv.org/pdf/2105.13626.pdf

GitHub 地址:https://github.com/google-research/byt5

信息来源:机器之心

05

OpenAI CLIP模型袖珍版,24MB实现文本图像匹配,iPhone上可运行

OpenAI 的 CLIP 模型在匹配图像与文本类别方面非常强大,但原始 CLIP 模型是在 4 亿多个图像 - 文本对上训练的,耗费了相当大的算力。来自 PicCollage 公司的研究者最近进行了缩小 CLIP 模型尺寸的研究,并取得了出色的效果。

今年 1 月初,OpenAI 打破了自然语言与视觉的次元壁,接连推出了两个连接文本与图像的神经网络 DALL·E 和 CLIP,后者能够完成图像与文本类别的匹配。CLIP 能够可靠地执行一系列视觉识别任务,给出一组以语言形式表述的类别,它即能够立即将一张图像与其中某个类别进行匹配,而且不像标准神经网络那样需要针对这些类别的特定数据进行微调。

CLIP 模型的一些效果示例。图源:OpenAI

之后,OpenAI 更是在 CLIP 模型中发现了多模态神经元。这类神经元能够对以文本、符号或概念形式呈现的相同概念作出反应,例如「Spider-Man」神经元(类似 Halle Berry 神经元)能够对蜘蛛图像、文本「spider」的图像和漫画人物「蜘蛛侠」做出响应。

虽然 CLIP 模型在匹配图像与文本类别方面非常强大,但它是在 4 亿多个图像 - 文本对上训练的,使用了很大的算力,需要 256 个 GPU 训练两周。这对于普通开发者来说是无法想象的。因此,是否有可能缩小 CLIP 模型的尺寸,并且不减弱其性能呢?

最近,PicCollage 公司的研究者对这一课题展开了研究,他们在自己的内容产品上对 CLIP 模型的性能进行了测试,并且获得了满意的效果。不过很快发现了 CLIP 模型的一个奇怪点:在搜索查询中优先考虑文本相似度而不是语义相似度。他们想要解决 CLIP 模型过分重视文本相似度的问题,以此获得更相关的搜索结果。

除此之外,研究者还想缩小 CLIP 模型的尺寸并探索在 IOS 设备上部署的可能性。他们使用模型蒸馏的方法来缩小 CLIP 的尺寸,350MB 的原始模型(可称为 teacher 模型)蒸馏后降为 48MB(student 模型),精度为 FP32。并且,在单个 P100 GPU 上训练了数周后,他们将 48MB 大小的 student 模型转换成了 CoreML 格式,并再次得到了 24MB 大小的模型,精度为 FP16,性能变化几乎可以忽略不计。研究者表示,蒸馏后的模型可以在 iPhone 等 IOS 设备上运行。

信息来源:机器之心

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值