论文阅读2022

logic_5

已于 2022-11-19 11:32:28 修改

阅读量301

点赞数 1

分类专栏：人工智能文章标签：论文阅读

于 2022-11-19 11:28:33 首次发布

本文链接：https://blog.csdn.net/dy1314fowever/article/details/127934515

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hard Example Generation by Texture Synthesis for Cross-domain Shape Similarity Learning

是metric learning
问题：shape difference between a negative pair is entangled with the texture gap, making metric learning ineffective in pushing away negative pairs
解决办法：
- develop a geometry-focused multi-view metric learning framework empowered by texture synthesis
- The synthesis of textures for 3D shape models creates hard triplets, which suppress the adverse effects of rich texture in 2D images, thereby push the network to focus more on discovering geometric characteristics.
introduce how do we generate hard examples by texture synthesis in an online manner.
present the attention mechanisms in the metric learning framework.

Location Field Descriptors: Single Image 3D Model Retrieval in the Wild

Location Field Descriptors
- map 3D models and RGB images to a common low-level representation in the form of location fields
- compute pose invariant 3D shape descriptors.
- explicitly capture 3D shape and 3D pose information without appearance variations which are irrelevant for the task
- bridge the domain gap and benefit from training on synthetic data

3D Pose Estimation and 3D Model Retrieval for Objects in the Wild

We first present a 3D pose estimation approach for object categories
we use the estimated pose as a prior to retrieve 3D models
- render depth images from 3D models under our predicted pose
- match learned image descriptors of RGB images against those of rendered depth images using a CNN-based multi-view metric learning approach.
3维姿态位置估计方法
- 6dof，3种类型的平移自由度+3种类型的旋转自由度 = 6自由度
- 使用 PnP 算法从关键点预测和 CAD 模型中恢复姿势。
- 采用类似的方法，但使用对象的 3D 边界框的角作为虚拟控制点。
使用估计的姿态位置作为指针来检索3维模型
- 将3维模型使用姿态估计的方法预测的姿态来渲染深度图
- 使用基于cnn的多视图度量学习方法将所学到的rgb图片的图片描述符和渲染的深度图像匹配起来

3D Pose Estimation Based on Reinforce Learning for 2D Image-based 3D Model Retrieval

动机

因为二维图片受各种因素影响，直接渲染3D模型到二维图片有困难，为了缩减二维和三维的差距，提出使用姿态估计的方法渲染图像从而进行检索，因为一个模型可以渲染成很多很多不同的图片，所以提出一个有用且高效的得到与二维图像相似的三维模型投影图像的方法。
方法
- 三维姿态估计
  
  姿态估计使用的是强化学习进行的，通过强化学习不停的调整3维模型从而最终使得渲染的图片与给出的二维查询图片一致
- 检索方法
  
  将模型渲染成与查询图像姿态一致的深度图与查询图像一起提取肢体骨干信息，使用CNN来度量二者的相似度从而实现检索。
实验结果
- 姿态估计在pascal3d+的MedErr和Accpi/6不如之前的一些方法，但平均来说效果较好，未知类别的情况下效果比之前看的论文要好，与随机投影和投影特别多情况来说，基于姿态的投影能在保持效果不错的情况下确保查询的速度够快。
- 效果在查准率高但查全率会低与论文提到的作为对比的其他方法来说
缺点（A deep-shallow and global–local multi-feature fusion network for photometric stereo）
- 这种投影方法会丢失三维一些信息

Self-supervised Auxiliary domain alignment for unsupervised 2d image-based 3d shape retrieval

动机
- 难以以无监督的方式缩减二维图像和三维形状之间的巨大的域差距。
- 在学习无标签三维形状的判别特征有困难，现在大部分的方法都是更多的是使用查询图片的标签但是忽略三维模型的标签，错误的标签会不可避免的对目标域和源域的对齐带来消极影响。
方法
- 提出了三个模块多视图自监督提取特征模块，中间域对齐模块和多种语义域对齐模块
- 多视图自监督提取特征模块。思想是基于对比学习以及度量学习，首先将一个模型渲染成多个视图的图片，然后根据KL散度将其分为两个堆，因为是同一个模型渲染的图片所以这两个堆的特征应该尽可能的靠近，使用的距离度量函数是欧式距离。
- 中间域对齐模块。首先将同一个类标签的源域和目标域（通过分类器得到的预测标签）进行合成一个中间域，然后将中间域分别和源域和目标域进行计算距离，通过最小化二者的距离实现中间域对齐的目的。
- 多种语义域对齐模块。首先通过生成对抗网络训练生成器使其生成的两个子三维目标域的特征更靠近源域，从而减小两个目标域与源域的差距。仅仅通过生成网络减小域之间的差距是不够的，还需进行源域和目标域以及两个子目标域的对齐。
实验结果
- 数据集，数据集MI3DOR和MI3DOR2
  - MI3DOR:一种跨膜态的检索数据集包含21个类别，2d图片有类别，3d形状无类别，训练集和测试集都有10500个二维图片和3838个三维模型。
  - MI3DOR2包含40个类别，每个2d图片的背景更加干净可以消除复杂背景的对域对齐的消极影响。训练集包含19294张二维图片和3182个三维模型，测试集包含400张二维图片和800个三维模型。
- 评价标准
  - Nearest Neighbor (NN),
  - First Tier (FT), Second Tier (ST),
  - F measure (F),
  - Discounted Cumulative Gain (DCG)
  - Average Normalized Retrieval Rank (ANMRR)
- 分类标准，根据域对齐的策略分为：无适应对齐方法，基于MMD（最大平均差异）的对齐方法和DAN（域对抗网络）对齐方法
  - 无适应方法：直接使用神经网络训练源样本来预测目标的样本，不会进行适应的对齐方法
  - 基于MMD的对齐方法:通过使用最大平均差异来减少源域和目标域的分布偏差，代表方法MEDA,JGSA,JAN
  - 自训练的方法：先给未分配标签的目标域分配生成的标签，然后使用生成的标签使用有监督的方法训练神经网络。代表方法SHOT和SHOT++
  - DAN：设计特征提取器和域分类器模块解决域对齐的问题。特征提取模块使得两个特征分布尽可能相似，域分类器最小化域分类的损失，会带来噪声干扰当仅仅使用表面特征的话。最近的方法通过使用同一个类的语义信息来减少目标域和源域样本的分布差距的源域对齐策略。代表方法DANN,DLEA,JHFLDA,HIFA和CCS+IST
- 结果
  - 无适应和有适应域对齐方法对比
    - 有适应更好
  - MMD和DAN
    - DAN更好。MMD方法通过直接将分布进行对齐忽略不同域之间的语义信息，并且DAN还使用合成标签对齐来进一步减少无标签数据的消极影响
  - 消融实验
    - 中间域对齐多种域对齐和多视图自监督特征提取是很有效的
- 子集合的使用，将模型的投影分为两个子集合比三个子集合和一个子集合更好
缺点
- 会检索出一些和查询图像很像但不是一个类的三维模型，生成三维模型的标签准确率有待提高。

Hierarchical Instance Feature Alignment for 2D Image-Based 3D Shape Retrieval

动机
- 二维图片和三维模型过去的方法没有学习到更具有代表区分性的特征
- 过去的方法仅仅是减少全局域的多样性忽略局部域的多样性减少对齐
- 在没有三维模型标签的情况下，难以缩小 2D 和 3D 域之间的差距
方法
- 方法主要包括两大模块，跨膜态实例特征学习模块，分层实例特征对齐模块。
  - 跨膜态实例特征学习模块，主要的目的是学习提取显著性具有区分性的特征为检索任务保留尽可能多的视觉特征。包括两个模块视觉特征提取模块，互信息的最大化模块。视觉特征提取模块就是用cnn分别将三维模型渲染的图片和查询图片进行提取特征。互信息的最大化模块
  - 分层次实例特征对齐模块：主要包括两个模块，全域对齐和局部域对齐。全域对齐方法基于Xu et al., 2019的MMFND，局部域对齐模块先训练网络使其对查询图像进行分类并提取查询图像的特征，然后通过网络对三维模型生成伪标签，最后在同类别上对两个域进行做损失，减小同类不同域之间的间隙。
实验结果
- 实验集MI3DOR和MIDIOR2
- 比论文提出的其他方法都好达到最优的效果
- 论文提出的三个方法全域对齐，局部域对齐以及互信息最大化模块都是很有用的。
缺点

从图可以看出局部域的特征对齐有问题，有偏差。

没有学习到有区别性的未标记的三维模型特征。

Consistent Domain Structure Learning and Domain Alignment for 2D Image-Based 3D Objects Retrieval

动机
- 普遍的方法仅利用来自源域的语义信息来预测目标域中的标签，而忽略目标域的内在结构
- 如何为2D图像和3D物体构建统一的特征空间
- 如何充分利用目标域的内在结构进行域对齐。
方法

方法主要包括：视觉表征模块，子空间生成模块，域对齐模块以及一致域结构学习模块
- 视觉表征
  
  将3维模型渲染成图片，使用MVCNN得到虚拟特征表示，2维查询图像使用CNN获得表示
- 子空间生成
  
  高维度的特征空间包含噪声和多余的信息，使用PCA降低维度，得到更强的特征。得到投影矩阵V可以降低X的维度
- 域对齐
  
  通过不停改变投影矩阵P使得同类的二维的源域和三维形状的目标域更相似，这里目标域的标签由下边的一致性域结构学习得到
- 一致域结构学习
  
  预测目标域的标签，给域对齐提供更可靠的信息，分为以下两点：
  - 发掘源域的内在结构：
    
    先求源域每个类中心的平均向量值，再将每个目标域向量与源域平均向量值做差再求模从而求得目标域向量最接近的源域类。
- 发掘目标域的内在结构：
  
  先用k均值生成和簇，根据源域初始化目标域族的簇中心，然后让目标域的簇中心更靠近源域的簇中心
  
  源域内在结构：概率高意味着对应的样本接近源域的类中心
  
  目标域的内在结构：概率高意味着对应的样本在目标域中靠近聚类中心，而不管与源域的距离如何。
实验结果
- 实验集MI3DOR和MI3DOR2
- 在MI3DOR上，所提出的方法可以实现NN增益14.0%-222.1%，FT增益1.1%-337.8%，ST增益20.0%-233.7%，F-measure增益10.2%-253.6%，3.2%-321.6% 在 DCG 中，在 ANMRR 中下降 4.3%-60.9%。
- 在 MI3DOR-2 上，提出的方法优于 JHFL 以外的代表性方法。与 JHFL 相比，所提出的方法在 NN 和 ST 中取得了更好的效果
- JGSA 和 JHFL 明显优于 CORAL 和 GFK。这表明对齐边际分布和条件分布比只对齐边际分布更重要。
- 除 1NN 之外的所有方法都优于 1NN，这表明 2D 和 3D 视觉表示之间存在很大差距。
- 所提出的方法优于 JAN 和 LSR。 JAN 和 LSR 需要大规模数据和调整大量参数以获得最佳结果。相比之下，所提出的方法可以设置更少的参数，只有交叉验证和少量数据。
- 提出的CCS和IST很有效果