VALSE2019总结(3)-基于视觉和常识的深度推理

最新推荐文章于 2023-01-03 10:14:54 发布

weixin_30446197

最新推荐文章于 2023-01-03 10:14:54 发布

阅读量286

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/LS1314/p/10885093.html

版权

3. 基于视觉和常识的深度推理

几乎没啥干货

3.1 视觉场景理解与描述与描述中的物体关系 (shuqiang jiang, CAS)

VAD中也涉及到对于不同场景的理解，也许对我有用

不同距离下的图像表现
- 场景抽象性：场景是由不同物体及局部区域的组合，相比较物体图像，场景图像更加抽象，更难以识别和理解
- 比如：(1)常规：ImageNet (2)复杂：COCO, Visual Genome（有一张图）
视觉场景中的多物体
关于物体
- 核心问题：何为物体？发现物体；理解物体；利用物体；描述物体与场景；
关于物体间关系
- 同一图像：空间关系，动作关系，属含关系，共生关系，xx关系
- 不同图像：物体的层次有：实例级，物体级，类别级，知识级，描述级
四个经典任务：
- 同一图像
  - 场景识别：物体间的空间位置关系
  - 图像语言描述：物体之间的的上下文关联关系
- 不同图像
  - 图像搜索：实例级 partial duplicate (去重？)
  - 共同物体检测：不知名的相同物体
场景：图像中存在的高层概念信息
- 场景识别的潜在应用
  - 照片自动管理
  - 图像的全面理解
- 挑战与难点
  - 场景抽象性
  - 类内差异性
  - 类内物体分布多样性
  - 类间相似性
- 作者的一些工作
  - 直接贴图，有时间再阅读完善
  - 一个不错的思想：利用物体关系进行场景识别
    - 场景内的物体分布可辅助场景识别(新增OOR module, object-object relations)
    - 物体间的共生会混淆场景识别
    - RGB-D的图像数据能更好的表示物体的空间信息
  - 基于空间关系建模的场景识别框架
    - 多种空间关系定义：物体间方向、距离、尺寸的关系
    - 多种空间关系建模：COOR(空间关系特征矩阵建模)，SOOR(基于物体与空间关系的图题描述)
    - 具体结构见一张图片
利用物体上下文信息的语言描述
- 图片
基于场景图谱的图像内容描述
- 图片
图像共同物体检测
- 图片
- 2D image中对一个关于物体的定义：
  - 有一个清晰的闭合曲线边界
  - 与周围有不同的外观
  - 在该物体定义的区域内是突出显著的
- 物体的概念体系：
  - 类别概念分为：高层，中层(通用物体检测，object detection)，实例层
总结：
- 物体关系：同一张图像内部不同物体的关系，不同图像之间的物体间关系
- 利用物体关系来辅助计算机视觉相关任务：场景识别、图像搜索、语言描述、共同物体检测
一些图片

3.2 Towards X visual reasoning (hanwang zhang, NTU)

转载于:https://www.cnblogs.com/LS1314/p/10885093.html

weixin_30446197

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。