直播 | UCLA博士生洪逸宁：视觉和语言的联合语法归纳（ICCV 2021）

最新推荐文章于 2023-12-01 15:25:02 发布

PaperWeekly

最新推荐文章于 2023-12-01 15:25:02 发布

阅读量1.2k

点赞数 1

文章标签：人工智能计算机视觉 html xhtml 微软

原文链接：https://live.bilibili.com/14884511

版权

「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

本期 AI Drive，我们邀请到加州大学洛杉矶分校（UCLA）计算机系博士生洪逸宁，为大家在线解读其发表在 ICCV 2021 的最新研究成果：VLGrammar: Grounded Grammar Induction of Vision and Language。对本期主题感兴趣的小伙伴，今晚 7 点，我们准时相约 PaperWeekly B 站直播间。

直播信息

认知语法表明语言语法的习得建立在视觉结构的基础上。虽然语法是自然语言的基本表示，但它在视觉中也无处不在，用于表示分层的部分-整体结构。在这项工作中，我们在联合学习框架中研究了视觉和语言的语法归纳。具体来说，我们提出了 VLGrammar，一种使用 Compound PCFG 同时归纳语言语法和图像语法的方法。我们提出了一种新颖的对比学习框架来指导两个模块的联合学习。

为了为语法归纳任务提供基准，我们收集了一个大规模数据集 PartIt，其中包含描述 3D 物体的人工编写的句子。在 PartIt 数据集上的实验表明，VLGrammar 在图像语法归纳和语言语法归纳方面优于所有基线。VLGgrammar 有利于相关的下游任务。具体来说，它将图像无监督聚类精度提高了 30%，在图像检索和文本检索方面表现良好。值得注意的是，归纳的语法可以通过泛化到新的类别，显示出优越的泛化性。

论文链接：

https://arxiv.org/abs/2103.12975

代码链接：

https://github.com/evelinehong/VLGrammar

本次分享的具体内容有：