「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。
本期 AI Drive,我们邀请到加州大学洛杉矶分校(UCLA)计算机系博士生洪逸宁,为大家在线解读其发表在 ICCV 2021 的最新研究成果:VLGrammar: Grounded Grammar Induction of Vision and Language。对本期主题感兴趣的小伙伴,今晚 7 点,我们准时相约 PaperWeekly B 站直播间。
直播信息
认知语法表明语言语法的习得建立在视觉结构的基础上。虽然语法是自然语言的基本表示,但它在视觉中也无处不在,用于表示分层的部分-整体结构。在这项工作中,我们在联合学习框架中研究了视觉和语言的语法归纳。具体来说,我们提出了 VLGrammar,一种使用 Compound PCFG 同时归纳语言语法和图像语法的方法。我们提出了一种新颖的对比学习框架来指导两个模块的联合学习。
为了为语法归纳任务提供基准,我们收集了一个大规模数据集 PartIt,其中包含描述 3D 物体的人工编写的句子。在 PartIt 数据集上的实验表明,VLGrammar 在图像语法归纳和语言语法归纳方面优于所有基线。VLGgrammar 有利于相关的下游任务。具体来说,它将图像无监督聚类精度提高了 30%,在图像检索和文本检索方面表现良好。值得注意的是,归纳的语法可以通过泛化到新的类别,显示出优越的泛化性。
论文链接:
https://arxiv.org/abs/2103.12975
代码链接:
https://github.com/evelinehong/VLGrammar
本次分享的具体内容有:
语言语法归纳的常见方法
图像语法的介绍
PartIt 数据集介绍
方法介绍:1) 语言 Compound PCFG 2)视觉 Compound PCFG 3)对比学习框架
实验结果
未来方向探索
嘉宾介绍
洪逸宁 / 加州大学洛杉矶分校博士生
洪逸宁,加州大学洛杉矶分校(UCLA)计算机系一年级博士生,师从朱松纯教授。此前为上海交通大学的本科生。研究方向为计算机视觉、自然语言处理。在 ICML、ECCV、ICCV、ACL、AAAI 等会议发表论文近十篇。
直播地址 & 交流群
本次直播将在 PaperWeekly 视频号和 B 站直播间进行,扫描下方海报二维码或点击阅读原文即可免费观看。线上分享结束后,嘉宾还将在直播交流群内实时 QA,在 PaperWeekly 微信公众号后台回复「AI Drive」,即可获取入群通道。
B 站直播间:
https://live.bilibili.com/14884511
合作伙伴
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·