直播 | UCLA博士生洪逸宁:视觉和语言的联合语法归纳(ICCV 2021)

「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。

本期 AI Drive,我们邀请到加州大学洛杉矶分校(UCLA)计算机系博士生洪逸宁,为大家在线解读其发表在 ICCV 2021 的最新研究成果:VLGrammar: Grounded Grammar Induction of Vision and Language。对本期主题感兴趣的小伙伴,今晚 7 点,我们准时相约 PaperWeekly B 站直播间。

直播信息

认知语法表明语言语法的习得建立在视觉结构的基础上。虽然语法是自然语言的基本表示,但它在视觉中也无处不在,用于表示分层的部分-整体结构。在这项工作中,我们在联合学习框架中研究了视觉和语言的语法归纳。具体来说,我们提出了 VLGrammar,一种使用 Compound PCFG 同时归纳语言语法和图像语法的方法。我们提出了一种新颖的对比学习框架来指导两个模块的联合学习。

为了为语法归纳任务提供基准,我们收集了一个大规模数据集 PartIt,其中包含描述 3D 物体的人工编写的句子。在 PartIt 数据集上的实验表明,VLGrammar 在图像语法归纳和语言语法归纳方面优于所有基线。VLGgrammar 有利于相关的下游任务。具体来说,它将图像无监督聚类精度提高了 30%,在图像检索和文本检索方面表现良好。值得注意的是,归纳的语法可以通过泛化到新的类别,显示出优越的泛化性。

论文链接:

https://arxiv.org/abs/2103.12975

代码链接:

https://github.com/evelinehong/VLGrammar

本次分享的具体内容有: 

  • 语言语法归纳的常见方法

  • 图像语法的介绍

  • PartIt 数据集介绍

  • 方法介绍:1) 语言 Compound PCFG 2)视觉 Compound PCFG 3)对比学习框架

  • 实验结果

  • 未来方向探索

嘉宾介绍

 洪逸宁 / 加州大学洛杉矶分校博士生 

洪逸宁,加州大学洛杉矶分校(UCLA)计算机系一年级博士生,师从朱松纯教授。此前为上海交通大学的本科生。研究方向为计算机视觉、自然语言处理。在 ICML、ECCV、ICCV、ACL、AAAI 等会议发表论文近十篇。

直播地址 & 交流群

本次直播将在 PaperWeekly 视频号和 B 站直播间进行,扫描下方海报二维码点击阅读原文即可免费观看。线上分享结束后,嘉宾还将在直播交流群内实时 QA,在 PaperWeekly 微信公众号后台回复「AI Drive」,即可获取入群通道

B 站直播间:

https://live.bilibili.com/14884511

合作伙伴

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值