《图神经网络基础前沿与应用》学习笔记2-cv

cv领域的图神经网络

 

一、节点表征

图像分辨率一般表示为(h,w),c表示通道数,f表示帧数

1、将图像或者视频划分成规则的网格,每个网格都是分辨率为(p,p)的图像小块,将每个网格作为一个图的顶点。

2、也可以采用其他模型先对图像进行预处理,例如YOLO或Faster R-CNN等

物体检测框架,可直接用于顶点表征,将不同区域映射成相同维度的特征。

个人理解就是利用其他能够提取图像特征的模型,先把特征提取出来,然后修改维度作为图的节点特征

3、利用语义信息表征视觉顶点。

例如Li and Gupta(2018)将具有相似特征的像素分配到同一个顶点,组内的像素特征被进一步聚合,形成单一的顶点特征。

Wu et al(2020a)用几个卷积块处理输入图像并将这些来自不同滤波器的特征作为顶点来学习更多稀疏分布的高层语义概念。

Te et al(2018)及Landrieu and Simonovsky(2018)将k近邻聚集起来形成超点,并通过ConvGNN建立它们的关系以探索拓扑结构,从而“看到”周围的环境。

 

二、边表征

二维图像对应的节点之间的边可以用不同的空间关系连接起来。

而由视频转换而来的节点,不仅存在空间关系,还有时间关系。

这些关系又分为静态关系和动态关系。静态关系是可以通过预定义的规则固定的;动态关系是一种学习关系。

 

2.1 空间边

1、前文20.2图中的生成场景图(Xu et al,2017a 和人类骨架(Jain et al,2016b )是一种描述视觉图中节点之间的边的自然方法

2、Bajaj et al 2019,Liu et al 2020g 使用全连接图模拟节点之间的关系,并计算他们的结合区域来表征边

3、Yun et al2019,Yang et al2019f引入自注意力机制以学习视觉节点之间的关系

空间边可以选择基于谱域或空间的GNN进行应用

2.2 时间边

针对以视频建立图结构的情况

Yuan et al2017,Shen et al2020,Zhang et al2020b通过k近邻等语义相似度方法来计算当前帧中的每个节点与附近的帧,从而构建帧之间的时间关系

Jabri et al2020使用马尔可夫链将视频表征为一个图,通过动态调整来学习节点之间的随机游走,节点是图像小块,边是相邻帧的节点之间的密切关系

Zhang et al2020g使用区域作为视觉顶点,通过评估帧之间节点的JoU交并比来表征权重边

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值