视觉智慧是人类和计算机合作沟通的桥梁——李飞飞 中国计算机大会CNCC 2017

计算机视觉的下一步目标:丰富场景理解,以及计算机视觉与语言结合任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩。


1. 关系预测:

在李飞飞团队ECCV2016的收录论文中,他们的模型已经可以预测空间关系、比较关系、语义关系、动作关系和位置关系,在“列出所有物体”之外,向着场景内的物体的丰富关系理解迈出了坚实的一步。


2. 无样本学习:


3. Visual Genome数据集:

它的目标就是走出物体本身,关注更为广泛的对象之间的关系、语言、推理等等。


4. 重新认识场景识别:

他们有个想法是,把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系。

场景图(scene graphs)生成:手工 ——>自动

对于一张输入图像,首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。迭代信息传递算法。


图像说明,比如借助CNN把图像中的内容表示到特征空间,然后用LSTM这样的RNN生成一系列文字。

稠密说明,就是在一幅图片中有很多个区域都会分配注意力,这样有可以有很多个不同的句子描述不同的区域,而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合,再加上一个语言模型,这样就可以对场景做稠密的标注。


但我们已经迈出了视觉语言结合的第一步。

视频语言结合起来,难点是解析文本中的实体


5. 任务驱动的视觉问题

这其中会涉及到属性的辨别、计数、对比、空间关系等等。

CNN+LSTM+注意力模型:接近70%



图像相关的任务说了这么多,李飞飞把它们总结为了两大类

  • 首先是除了物体识别之外的关系识别、复杂语意表征、场景图;

  • 在场景gist之外,我们需要用视觉+语言处理单句标注、段落生成、视频理解、联合推理;


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值