李飞飞：物体识别之后，计算机视觉的进展、目标和前景何在？

最新推荐文章于 2024-02-03 11:48:36 发布

数据派THU

最新推荐文章于 2024-02-03 11:48:36 发布

阅读量4.7k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/78172956

版权

来源：AI科技评论

本文长度为4170字，建议阅读6分钟

本文为你解读机器计算机视觉的进展与前景。

9 月 26 日，机器人领域的顶级学术会议 IROS 2017 进入第二日。上午，著名华人计算机视觉专家、斯坦福副教授李飞飞，在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。

在报告中李飞飞与大家讨论了计算机视觉的目标：丰富场景理解，以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁，任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队工作也丰富多样、令人振奋。

2015年，李飞飞也在同一个会场面向着大海和听众进行过一次 TED 演讲

物体识别之后：丰富场景识别

在物体识别问题已经很大程度上解决以后，我们的下一个目标是走出物体本身，关注更为广泛的对象之间的关系、语言等等。

在Visual Genome数据集之后，我们做的另一项研究是重新认识场景识别。

场景识别单独来看是一项简单的任务，在谷歌里搜索“穿西装的男人”或者“可爱的小狗”，都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候，就得不到什么好结果。它的表现在这里就变得糟糕了，这种物体间的关系是一件很难处理的事情。

比如只关注了“长椅”和“人”的物体识别，就得不到“人坐在长椅上”的关系；即便训练网络识别“坐着的人”，也无法保证看清全局。我们有个想法是，把物体之外、场景之内的关系全都包含进来，然后再想办法提取精确的关系。

如果我们有一张场景图（graph），其中包含了场景内各种复杂的语义信息，那我们的场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述，但是把一个长句子变成一个场景图之后，我们就可以用图相关的方法把它和图像做对比；场景图也可以编码为数据库的一部分，从数据库的角度进行查询。

最低0.47元/天解锁文章

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
李飞飞：物体识别之后，计算机视觉的进展、目标和前景何在？

来源：AI科技评论本文长度为4170字，建议阅读6分钟本文为你解读机器计算机视觉的进展与前景。9 月 26 日，机器人领域的顶级学术会议 IROS 2017 进入第二日。上午，著名华人计算机视觉专家、斯坦福副教授李飞飞，在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。在报告中李飞飞与大家讨论了计算机视觉的目标：丰富场景理解，以及计算机视觉与语言结合和任
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。