今天14:00 | 港大、北航、耶鲁、清华、加大等15位ICLR一作讲者精彩继续！

AITIME论道

于 2022-06-30 08:30:20 发布

阅读量1k

点赞数

文章标签：神经网络大数据算法 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247503678&idx=1&sn=b8ba4fe16fba6262c53a21a007f872d8&chksm=e932fd98de45748e49a513da9aed8893bcea6638be9f5fb7272d0598540783409441a18a265f&scene=126&&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

今天14:00，ICLR收官场次啦！

将有15位讲者给大家带来精彩的分享！

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

6月30日 14:00-19:00

讲者简介

黎昆昌：

中国科学院深圳先进技术研究院二年级博士生，师从乔宇研究员和王亚立副研究员。主要研究方向为为视频理解与轻量化模型设计。

分享内容

用于高效时空表征学习的统一变换器

报告简介

视频帧间存在巨大的局部冗余性与复杂的全局依赖性，使得从视频中学习丰富的多尺度语义信息极具挑战。现有的两大主流模型CNN和ViT，往往只关注解决问题之一。卷积只在局部小邻域聚合上下文，天然地避免了冗余的全局计算，但受限的感受野难以建模全局依赖；而自注意力通过比较全局相似度，自然将长距离目标关联，但可视化分析表明，自注意力在浅层编码局部特征十分低效。在UniFormer中，我们以Transformer的风格统一了卷积与自注意力，在网络浅层和深层分别解决冗余性与长时依赖性两大问题。实验表明，UniFormer不仅在视频分类上性能优越，而且拓展到图像分类、检测、分割和姿态估计任务上，同样效果显著。

讲者简介

丁明宇：

香港大学三年级博士生，师从罗平教授。研究围绕计算机视觉，物理推理和机器人学，旨在让智能体交互并推理3D物理世界。在NeurIPS/ICML/ICLR/TPAMI/CVPR等会议和期刊发表多篇论文。

分享内容

通过传播神经网络代码学习多功能神经架构

报告简介

这项工作探索了如何设计一个能够适应多种异构视觉任务的神经网络。这个目标具有挑战性，因为不同任务中的网络架构搜索（NAS）空间和方法都是不一致的。我们从双方解决这个挑战。我们首先为多个任务引入统一的设计空间，并在许多广泛使用的数据集上构建多任务 NAS 基准（NAS-Bench-MR）。我们进一步提出了网络编码传播（NCP），它反向传播神经预测器的梯度，以沿着所需的梯度方向直接更新架构代码，以解决各种任务。通过这种方式，NCP 可以在几秒钟内在我们的大型搜索空间中找到最佳架构配置。与通常专注于单个任务的现有 NAS 技术不同，NCP 具有几个独特的优点。(1) NCP 将架构优化从数据驱动转变为架构驱动，实现了在不同数据分布的多任务之间联合搜索架构。(2) NCP 从网络代码而不是原始数据中学习，使其能够跨数据集有效地更新架构。(3) 除了我们的 NAS-Bench-MR 之外，NCP 在其他 NAS 基准测试中也表现良好，例如 NAS-Bench-201。(4) NCP 对任务间、跨任务和任务内的深入研究突出了跨任务神经架构设计的重要性，即多任务神经架构和不同任务之间的架构转移。代码可在 https://github.com/dingmyu/NCP 获得。

讲者简介

秦浩桐：

北京航空航天大学2019级博士研究生，师从李未院士和刘祥龙教授。主要研究方向为神经网络量化压缩，在ICLR/CVPR/IJCAI等会议和期刊发表多篇一作文章。

分享内容

面向极限压缩的全二值化BiBERT

报告简介

近年来，如BERT等预训练语言模型在自然语言处理上表现出色，但其庞大的参数量阻碍了它在真实世界的硬件设备上的部署。研究者们提出了许多参数量化的方案，通过将浮点参数转换为定点数表示，能使模型变得紧凑和高效。其中，二值化作为一种极限压缩手段，通过将模型的权重、激活均量化到1比特，在硬件推理时使用逐位运算操作，能显著加快模型部署到真实硬件时的推理速度。但量化模型尤其是二值化模型，往往面临严重的表达能力有限和优化困难的问题。我们的研究发现，在BERT模型的注意力机制中，直接对softmax的归一化注意力权重进行二值化会导致完全的信息丧失。此外，由于注意力权重是两个二值化的激活直接相乘而得，处于决策边缘的值很容易被二值化到相反的一侧，常规的直接优化注意力权重常常在训练过程中发生优化方向失配问题。因此，我们提出了一个针对BERT模型的全二值化方法——BiBERT，针对上述两个问题针对性地提出了二值注意力机制 (Bi-Attention) 解决前向传播中二值化后的注意力机制的信息退化问题，和方向匹配蒸馏 (DMD) 缓解后向传播中蒸馏的优化方向不匹配问题。BiBERT超过了现有的BERT模型二值化方法，甚至优于采用更多比特的量化方案，在模型计算量和体积上，BiBERT理论上能够带来56.3倍和31.2倍的FLOPs和模型尺寸的减少。

讲者简介

蒋志猛：

德州农工大学三年级博士生,师从胡侠教授. 研究兴趣包括机器学习公平性, 图神经网络等领域相关理论研究与应用. 在 ICLR/WWW/ICML 等会议上发表多篇论文.

分享内容

广义群体公平性指标

报告简介

机器学习模型公平性近几年引起了广泛关注. 目前对于连续的敏感特征的公平性指标极大依赖于难以估计的统计中变量独立性指标, 例如Hirschfeld-Gebelein-Renyi (HGR) 以及互信息. 当前这些指标的估计方法依赖于寻找指标的上下界或者神经网络估计近似. 然而这些估计方法缺乏准确性,在实际使用过程中并不能可信的比较不同算法有效性. 对于连续或者离散的敏感特征, 我们提出了一种广义的群体公平性指标并且提供了该广义群体公平性指标与常用的群体公平性指标的联系. 与此同时, 我们也发现了用该指标作为正则项的方法与对抗除偏方法的内在联系. 我们提出了基于软分组和硬分组的该公平性指标估计方法, 并且分析了两种估计策略的误差估计收敛速率.其中基于软分组的估计方法误差收敛速率更快. 实验表明用该指标作为正则项的方法在分类与回归任务,表数据以及图数据上都展现更好的性能.

讲者简介

娄乾：

美国三星人工智能研究院科学家，中佛罗里达大学助理教授（招2023全奖博士生），目前的研究主要通过设计新的算法，神经网络模型，计算机系统来改善深度学习在计算机视觉和自然语言处理方面的有效性，隐私性，安全性。20+研究成果已发表在顶会刊物上，比如 NeurIPS, ICML, CVPR, ICLR, EMNLP, IJCAI, PACT, DAC, DATE, ICCAD等等。

分享内容

共享字典实现轻量级Transformer

报告简介

我们引入了具有高效共享字典的 DictFormer，以提供紧凑、快速和准确的转换器模型。DictFormer 通过用紧凑的共享字典、少量未共享的系数和索引替换先前的转换器参数，显着减少了转换器参数中的冗余。此外，DictFormer 可以实现更快的计算，因为昂贵的权重乘法被转换为字典上的廉价共享查找和很少的线性投影。训练字典和系数不是微不足道的，因为用于查找字典的索引是不可微的。我们采用稀疏约束训练放松学习 DictFormer 中的系数和索引。DictFormer 通过动态更改字典大小灵活地支持不同的模型大小。与现有的轻量级 Transformer 相比，DictFormer 在多个任务（例如机器翻译、抽象摘要和语言建模）上始终比 Transformer 有更小的模型。大量实验表明，与 Transformer 相比，DictFormer 在多个任务上以相似的精度缩小了模型大小。

讲者简介

魏嘉珩：

加州大学圣克鲁兹分校博士三年级学生。研究兴趣主要集中在对于不完美数据的学习：比如，弱监督学习中常见的训练标签存在不准确的人工标注(噪声标签)；长尾分布的数据集(数据的类别分布不均衡)；分布鲁棒性优化等。以第一作者在ICML, ICLR, AISTATS会议发表多篇论文。

分享内容

重访弱监督学习中的噪声标签问题

报告简介

分类问题中的数据多为人工标注，由此产生的噪声标签(潜在的错误标注)会影响模型训练的效果。现有的关于噪声标签的研究主要集中在合成的标签噪声。合成的标签噪声有着比较干净的统计结构，从而方便相关的理论分析。为了更好地研究真实世界的标签噪声，我们通过对CIFAR图像数据进行重新人工标注收集，建立了可控、易用、规模适中的真实世界的噪声标签数据集CIFAR-N。相比于合成标签，我们从多角度分析并给出了真实的噪声标签相比合成的噪声所带来的全新挑战，比如：类别上的标注不均衡，噪声标签相对真实标签的转移矩阵，神经网络关于噪声标签的记忆效果，假设检验分析，大规模的基准测试等。

讲者简介

朱兆伟：

加州大学圣克鲁兹分校博士三年级学生。研究兴趣集中在弱监督学习、机器学习公平性、联邦学习等领域相关的理论及应用，比如，训练标签带有人为标注噪声时如何设计损失函数去抵消噪声影响，如何处理联邦学习中低质量、有系统误差的本地训练集。目前在ICML，ICLR，NeurIPS，ACM Sigmetrics，CVPR等会议上发表十余篇一作论文。

分享内容

半监督学习中的两极分化现象

报告简介

半监督学习可以将无标签数据有效的利用起来从而提高模型的整体性能。但是，半监督学习对于不同群体的表现尚未得到明确的分析。比如，对于不同性别、职业等群体来说，我们期望研究半监督学习是否可以同步的提升在各个群体上预测的准确率。我们通过借助标签噪声领域的分析技巧，从理论和实验两个角度证实了半监督学习容易存在马太效应，即强者愈强、弱者愈弱的两极分化现象。我们同时初步讨论了如何缓解这一现象。

讲者简介

施博文：

芝加哥丰田技术学院 (TTIC) 的博士生，导师是 Karen Livescu。研究方向为语音和计算机视觉之间的交叉，包括手语识别和多模态语音识别。

分享内容

通过掩蔽多模态聚类预测学习视听语音表示

报告简介

语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们提出了Audio-visual Hiddent Unit BERT (AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架，它可以屏蔽多流视频输入并预测自动发现和迭代细化的多模态隐藏单元。AV-HuBERT 学习强大的视听语音表示，有利于唇读和自动语音识别。在最大的公共唇读benchmark LRS3上，AV-HuBERT 仅用 30 小时的标签数据就达到了 32.5% 的单词错误率（WER），超过了之前经过使用一千倍以上训练数据的SOTA（33.6%）。当使用 433 小时标签数据并结合自我训练时，唇读 WER 进一步降低到 26.9%。在同一benchmark的语音识别任务上，使用AV-HuBERT进一步提升纯音频语音识别性能超过40%。我们的代码和模型可在 https://github.com/facebookresearch/av_hubert获得。

讲者简介

王子丰：

伊利诺伊大学香槟分校计算系一年级博士生，导师为Jimeng Sun教授。研究方向包括深度学习理论，数据去偏/降噪，医疗AI等，以第一作者在ICLR, NeurIPS, AAAI, WWW等会议中发表多篇论文。

分享内容

基于pac-bayes的表征信息瓶颈

报告简介

解释神经网络的泛化能力是近年来人工智能领域的一项热点研究。神经网络中储存的信息量被认为是可以衡量网络泛化能力的指标。如果我们能计算神经网络中的信息量，则可以解释和推断网络的泛化能力，解开深度学习的黑箱，并且指导其优化和设计。在这篇文章中，我们提出了一种能快速计算神经网络权重中储存数据信息量的算法，并且基于此构建了一种新的信息瓶颈(PAC-Bayes IB)。我们在实验中证明，这种信息度量能从多个角度解释和追踪网络的泛化能力，比如在不同的宽度和深度，数据大小，数据噪音程度，批次大小等。并且，使用该种信息量作为约束能够训练更好的神经网络。

讲者简介

瞿锰：

魁北克人工智能研究院Mila的4年级博士生，师从唐建博士。他硕士毕业于伊利诺伊大学香槟分校 (UIUC)，师从韩家炜教授。本科毕业于北京大学，师从张铭教授。他的研究兴趣为图数据中的知识推理，例如知识图谱推理。他在该方向发表了多篇结合图深度学习和统计关系学习的文章。他参与提出了图表示学习领域的代表算法LINE，相关文章被广泛引用。

分享内容

基于神经结构化预测的图节点分类

报告简介

归纳式节点分类是机器学习领域的重要问题，旨在通过全标注图数据训练分类器、对未标注图数据进行节点分类。该问题在图机器学习、结构化预测领域被广泛研究，代表性方法分别为图神经网络 (GNN) 以及条件随机场 (CRF)。在该报告中，我们提出了一种称为结构化代理网络 (SPN) 的新方法，结合了两个领域的优势。SPN 在 CRF 框架中引入了由 GNN 表征的灵活势函数。然而，训练这样的模型并非易事，因为它涉及到极大极小优化问题。受马尔可夫网络中联合分布和边际分布之间潜在联系的启发，我们提出一个代理问题，作为原问题的近似。该问题形式简单、易被优化。两种设置下的实验表明，我们的方法优于许多已有的模型。

讲者简介

庄钧堂：

本科毕业于清华大学，博士毕业于耶鲁大学，导师为James Duncan。研究方向包括优化理论，Neural ODE，以及机器学习在生物医学的应用。

分享内容

最小化“Surrogate Gap”提升泛化性能

报告简介

最近提出的 Sharpness-Aware Minimization (SAM) 通过最小化被定义为参数空间中邻域内的最大损失的扰动损失来改进泛化。然而，我们表明尖锐和平坦的最小值都可以具有低扰动损失，这意味着 SAM 并不总是更喜欢平坦的最小值。相反，我们定义了一个替代间隙，当邻域半径较小时，在局部最小值处, 该度量等效于 Hessian 的最大特征值。替代差距易于计算，并且可以在训练期间直接最小化。基于上述观察，我们提出了GSAM，这是对 SAM 的一种新颖改进，计算开销可忽略不计。

从概念上讲，GSAM 由两个步骤组成：1) 像 SAM 一样的梯度下降以最小化损失函数，以及 2) 在正交方向（在梯度分解之后）的上升步骤以最小化代理间隙但不影响损失函数。GSAM 寻找具有小损失（通过步骤 1）和低锐度（通过步骤 2）的区域，从而产生具有高泛化能力的模型。从理论上讲，我们展示了 GSAM 的收敛性和可证明比 SAM 更好的泛化能力。实验中，GSAM 始终如一地提高泛化能力（例如，在 ViT-B/32 的 ImageNet top-1 准确度上，GSAM 比 SAM 提高 3.2%，比 AdamW 提高 5.4%）。

讲者简介

孟辰霖：

斯坦福大学博士，导师为Stefano Ermon教授，研究方向是生成模型

分享内容

SDEdit：使用随机微分方程进行引导图像合成和编辑

报告简介

引导式图像合成使日常用户能够轻松创建和编辑照片般逼真的图像。关键挑战是平衡对用户输入的忠实度（例如，手绘彩色笔触）和合成图像的真实性。现有的基于 GAN 的方法试图使用conditional GAN 或 GAN inversion 来实现这种平衡，这具有挑战性，并且通常需要额外的训练数据或单个应用程序的损失函数。为了解决这些问题，我们引入了一种新的图像合成和编辑方法，即随机微分编辑 (SDEdit)，它基于扩散模型生成先验，通过随机微分方程 (SDE) 迭代去噪来合成真实图像。给定带有任何类型用户指南的输入图像，SDEdit 首先向输入添加噪声，然后通过 SDE 对结果图像进行去噪，然后再增加其真实感。SDEdit 不需要针对特定任务的训练或GAN inversion，自然可以在真实性和忠实性之间取得平衡。根据一项人类感知研究，在包括基于笔画的图像合成和编辑在内的多项任务上，SDEdit 在逼真度和总体满意度得分方面显着优于最先进的基于 GAN 的方法高达 98.09% 和 91.72%作为图像合成。

讲者简介

余银峰：

清华大学计算机系博士生，导师为孙富春教授，研究方向为具身智能

分享内容

声音对抗的视听导航

报告简介

视听导航任务需要智能体通过利用以第一视角的视听观察在真实的、未知的三维环境中找到声源。现有的视听导航作品假设一个无干扰、仅包含目标声音的简单环境，但这种环境不适用于大多数声音嘈杂的实际应用。声音嘈杂的环境怎么构建？我们通过最坏情况的思想，构建了一个声音攻击者。声音攻击者可以移动和改变声音的音量和类别，使智能体在寻找目标声源的过程中受到声学复杂的干扰。通过设计，完成了声音嘈杂环境下的视听导航。实验使用两个真实世界的3d扫描数据集Replica 和 Matterport3D，验证了我们设计的两个智能体的算法在声音嘈杂环境下的有效性和稳健性。

讲者简介

吴桐桐：

东南大学-Monash大学联合培养博士生，研究方向为低资源学习，持续学习与信息抽取。

分享内容

持续学习中的预训练语言模型

报告简介

持续学习(CL)是一种从输入数据流中学习，同时避免忘记先前学习的知识的机器学习场景。预训练语言模型(PLMs)已经成功地应用于不同自然语言问题的连续学习中。随着许多持续学习方法和PLM的快速发展，理解和理清它们之间的相互作用对于持续改进持续学习绩效变得至关重要。在本文中，我们在2个典型的增量设置中，在3个基准上全面比较了5个PLM和4个CL方法组合的持续学习性能。我们广泛的实验分析揭示了PLM和CL方法之间有趣的性能差异。此外，我们的代表性探索分析以分层和任务的方式剖析PLM的性能特征，揭示其内层遭受遗忘的程度，以及不同的CL方法对每一层的影响。最后，我们的观察和分析揭示了许多重要的研究问题，这些问题将为有效的持续学习技术的设计提供信息和指导。

讲者简介

范玮：

中佛罗里达二年级博士生，导师是Yanjie Fu，该工作是在MSRA 实习时在Shun Zheng研究员的指导下完成，研究方向包括时间序列、自动化特征工程等。

分享内容

周期性时间序列的深度展开学习

报告简介

周期性时间序列在电力、交通、环境、医疗等领域中普遍存在，但是准确地捕捉这些时序信号的演化规律却很困难。一方面是因为观测到的时序信号往往对隐式的周期规律有着各种各样复杂的依赖关系，另一方面是由于这些隐式的周期规律通常也由不同频率、幅度的周期模式复合而成。然而，现有的深度时间序列预测模型要么忽视了对周期性的建模，要么依赖一些简单的假设（加性周期、乘性周期等），从而导致在相应预测任务中的表现不如人意。我们为周期性时间序列的预测问题提出了一套新型的深度展开学习既可以刻画多样化的周期性成分，也能捕捉复杂的周期性依赖关系。

直播结束后大家可以在群内进行提问，请添加“AI TIME小助手（微信号：AITIME_HY）”，回复“ICLR”，将拉您进“AI TIME ICLR交流群”！