论文阅读训练(13)

《Pixel-Adaptive Convolutional Neural Networks》(2019)

作者:UMass Amherst  NVIDIA

摘要

卷积是CNN的基础组成block,被广泛使用的主要原因是它们的权重是空间共享的,也是最主要的限制,是使得卷积是内容无关的。此篇文章提出一个像素自适应的卷积操作,简称(PAC),对标准卷积的简单有效修改,其中滤波器权重乘以空间变化的内核,变化内核取决于可学习的、局部像素特征。PAC是几个有名的滤波技术的泛化,因此可以广范使用。具体的,证明当PAC用于deep joint image upsampling(深联合图像上采样)性能最好。PAC也可以对全连接CRF提供迭代,称为PAC-CRF,比Full-CRF更快。除此之外,PAC可用作预训练网络中卷积层的直接替代,从而实现一致的性能改进。

问题:处理卷积由于空间共享使得内容无关的限制。

方法:提出像素自适应卷积操作(PCA),对标准卷积的简单有效修改,其中滤波器权重乘以空间变化的内核,变化内核取决于可学习的、局部像素特征。

自适应核K用预训练或学习的特征构建,输入V,操作:逐像素相乘求和。

效果:PAC是滤波器的泛化,可将预训练网络中的卷积层直接替换。

《Learning Region Features for Object Detection》(ECCV2018)

作者:Han Hu胡瀚(MSRA)【研究变形卷积、关系网络等】

摘要

当前目标检测方法中的大多数步骤都是可学习的,但区域特征提取步骤仍然主要是手工制作,具有RoI池化方法的特征。此篇工作提出一个泛化观点,整合现存区域特征提取方法和新的方法实现端到端学习。此文章提出的方法消除了大多数启发式选择,并且优于RoI pooling。它进一步向完全可学习的物体检测方向发展。

问题:现存目标检测方法的区域特征提取不是可学习的,是手工制作的

方法:整合现存区域特征提取方法和新的方法实现端到端学习。完全学习的区域特征提取。

两个贡献:

1、提出区域特征提取的泛化观点。每个区域的bin或part的特征可以被公式化为在整个image上的不同位置的image features的加权求和。大多数以前的区域特征提取方法通过以不同方式指定权重(大多数是手工制作)显示为该公式的具体化。

2、基于上述观点,用一个可学习模块从ROI和image features角度表示权重。权重由两个因子影响:ROI和image positions的几何相关性和image features本身。

几何相关性建模用attention model(受启发于《Attention is all you need》NIPS2017,《Relation networks for object detection》cvpr2018,胡瀚)

image features用DCN变形卷积提取

效果:优于RoI pooling

相关工作:可变形RoI poolin引入了从图像内容自适应地学习的逐位偏移(DCN,ICCV2017)

文章细节:

part feature——泛化公式

\Omega _{b}——ROI或包含更多context part或整个image

p-空间位置

w_{k}\left ( b,p,x \right )——image feature x(p)在位置p求和的权重。(权重和为1)

\bigodot——逐元乘积

1、规则的ROI pooling:

\Omega _{b}=ROI,划分为7*7 bins,y(b)计算用max、average等,Rbk——第k个bin里的所有位置集合。

缺点:由于空间下采样,不能区分非常近的ROI,若两个ROIs距离小于16个像素,它们的ROIs是相同的并且特征也是相同的。

2、Spatial Pyramid Pooling(空间金字塔pooling)(ECCV2014)

Spatial Pyramid Pooling是在不同级别的网格划分上应用常规RoI Pooling

3、Aligned RoI Pooling(Mask RCNN)(ICCV2017)

规则ROI pooling通过下采样和pooling两次向下取整产生很大偏移,区域特征对ROI位置细微变化很敏感,故Aligned RoI Pooling用双线型插值解决规则ROI pooling的量化问题。

4、Deformable RoI pooling(DCN,变形卷积,控制采样点位置,ICCV2017)

通过学习每个bin的偏移量offsets,并将其添加到bin中心来推广Aligned RoI Pooling。

5、earn the weight w k (b, p, x) in Eq. (2) withminimum hand crafting

捕捉几何相关性:公式(8)本质是注意力模型(需要再理解)

第一步,box和image位置嵌入到高维空间中,通过将不同波长的正弦和余弦函数应用于标量z来执行嵌入:

第二步,嵌入向量\varepsilon ^{im}\left ( p \right )\varepsilon ^{box}\left ( b \right )权重矩阵W^{im} and W_{k}^{box}线性变换,是可学习的。

第三步,两个变换向量的内积作为几何相关权重。

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值