近期所读英文论文统计

最新推荐文章于 2024-06-08 12:18:06 发布

是风动不是心动

最新推荐文章于 2024-06-08 12:18:06 发布

阅读量213

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_45943487/article/details/127993143

版权

近期所读的一些论文统计

读的可能比较杂，比较乱，大部分都属于是略读，因为对论文中的公式不是很理解，每篇论文大概总结了解决了什么问题，用了什么方法

目标检测：基于anchors直接进行分类和边界框回归
PyRetri：A Pytorch-based Library for Unsupervised Image Retrieval by Deep Convolutional Neural Networks 2020 arXiv
主要介绍了一个用于基于深度学习的无监督图像检索的开源库，该库将检索过程封装在几个阶段，并提供了涵盖每个阶段的各种突出方法的功能。基于深度学习的无监督CBIR管道被划分为三个关键模块：①特征提取、②索引和③评估。①：先生成一个json文件来描述查询或图库数据集，将每个图像的信息（如路径和标签）保存在字典列表中；②：查询特征和图库特征被投影到新流形空间中，并计算它们之间的距离，设计的索引管道为所有索引阶段保留了接口，通过这些接口可以轻松插入他们的方法，无需修改检索管道的核心代码；③：采用Recall和mAP作为评估指标。PyRetri包含杰出的无监督CBIR（基于内容的图像检索）算法，对于支持的功能，采用了面向对象的方法，将每个算法实现为一个类模板，同时为更简单的操作提供了自由函数。
数据增强：DR：将图像的高度和宽度直接缩放到目标大小；PR：将图像的长边缩放到目标尺寸，并用ImageNet的平均值填充剩余像素；SR：将图像的短边缩放到目标尺寸

A Discriminative Distillation Network for Cross-Source Remote Sensing Image Retrieval IEEE 2020
用于跨源遥感图像检索的鉴别提取网络
此方法可以同时处理跨源和跨源变化。查询和检索的图像来自不同的数据源。主要介绍了如何解决不同来源之间的不一致性，之后可以利用其内在关系。首先利用基于深度神经网络的精心设计的联合优化配置（JOC：将三种损失与批次归一化BN层相结合）以解决类内不一致和类间模糊的问题，提取来自第一源的鉴别特征。此后，从第一源提取的特征被用作第二源的监控信号，使得第一和第二源之间的公共特征空间中的特征分布显著相似。
使用来自第一源的特征和权重的引导，提取第二源的特征。在这两步蒸馏网络中，低层的参数在提取特定特征时是独立的，成功解决了数据漂移引起的跨源问题。该方法使具有相同标签的样本彼此接近，并使具有不同标签的样本在两个源的公共特征空间中分开很远。网络仍然需要将其输入映射到特定的输出表示，在训练第一网络期间建立公共特征空间，第二网络从第二源学习有意义的低级特征。最终可得到两个网络，较低的层提取源特定的特征，而较高的层映射到公共特征空间以实现跨源检索。

特征对齐：Align Deep Features for Oriented Object Detection 2021 IEEE
对齐面向对象检测的深层特征
提出了一种新的对齐卷积，以完全卷积的方式缓解轴对齐卷积特征和任意定向对象之间的不对齐。解决了锚遭受锚盒和轴对齐卷积特征之间的严重失准，这导致分类分数和定位精度之间的常见不一致，通过嵌入对齐卷积，设计了一种单镜头对准网络（S2A-Net），能够生成高质量的锚和对齐特征，由两个模块组成：特征对准模块（FAM：使用锚精炼网络生成高质量的锚，并根据锚盒使用新的对齐卷积自适应地对齐卷积（ACL）特征）和定向检测模块（ODM：采用主动旋转滤波器对方向信息进行编码，产生方向敏感和方向不变的特征，以缓解分类分数和定位精度不一致）。
通过将水平锚点生成的感兴趣区域（Rol）转换为旋转（Rol）来解决边界框和定向对象之间的严重错位问题。FAM可以产生一种带有锚细化网络（ARN）的高质量锚点，并使用对齐卷积根据相应的锚框自适应地对齐特征。密集采样锚的方法：对特征图中的每个位置仅使用一个方形锚，ARN将其细化为高质量的旋转锚。然后对齐卷积（ACL）根据其对应锚的形状、大小和方向自适应地对齐特征。在ODM中，先采用主动旋转滤波器（ARF）来编码方向信息并产生方向敏感特征，然后通过合并方向敏感特征来提取方向不变特征。最后，将特征馈入回归子网络和分类子网络，方向敏感特征和方向不变特征分别用于回归和分类，以产生最终预测。FAM和ODM构成了应用于特征金字塔的每个尺度的检测头。
ARN锚优化网络是一个具有两个平行分支的光网络：锚分类分支和锚回归分支。锚分类分支将锚分类为不同的类别，锚回归分支将水平锚细化为高质量的旋转锚。
ODM定向检测模块被提出用于缓解分类分数和定位精度不一致，然后执行精确的对象检测。

Oriented RepPoints for Aerial Object Detection CVPR
航空目标检测的定向RepPoints
提出一种有效自适应点的学习质量评估和样本分配方案，用于在训练过程中选择面向代表性的代表点样本，引入一个空间约束来惩罚离群点，以进行快速自适应学习，能够捕获任意定向实例的几何信息。
①提出的用于航空图像的定向对象检测器，名为定向RepPoints，为不同的方向、形状和姿态引入了自适应点表示。具体为从中心点生成初始自适应点，这些点被进一步细化以适应空中物体。为了获得定向边界框，根据学习点的布局，提出了三个定向转换函数，以便于准确定向的分类和定位。②针对点集学习，提出了一种有效的自适应点评估和分配（APAA）方案，该方案不仅从分类、定位，而且从训练过程中的定向和逐点特征相关性来衡量定向代表点的质量。这种方案使得检测器能够从相邻对象或背景噪声捕获非轴对准特征，以分配代表性定向的再现点样本。
三个定向转换函数：（1）MinAeraRect从定向对象上的学习点集找到具有最小面积的旋转矩形，；（2）NearestGTConrner使用地面实况注释，对于每个角，找到距学习点集最近的点作为预测角，其中所选角点用于构建四边形作为定向边界框，可微函数；（3）ConvexHull，定向实例多边形可以定义由Jarvis-March算法驱动的一组点的凸包，该算法被许多基于轮廓的方法使用，可微函数。在使用MinAeraRect来获得标准旋转矩形预测，并且在训练期间使用其他两个可微函数来优化自适应点学习。在面向地面真实性标注的监督下，点自适应第向每个航空物体的语义关键和几何特征移动，同时受到分类和定位损失的驱动。

样本选择：Dynamic Refinement Network for Oriented and Densely Packed Object Detection CVPR 2020
定向和密集目标检测的动态细化网络
为了解决（1）不同形状并沿不同方向对齐的物体神经元的感受野问题；（2）检测模型使用通用知识进行训练，不能很好概括在测试时处理特定对象。提出了由两个新组件组成的动态细化网络，即特征选择模块（FSM：以像素方式提取形状和旋转变量特征，使神经元能够根据目标对象的形状和方向调整感受野，从而将准确和去噪的特征传递给检测器）和动态细化头（DRH：是模型可以以对象感知的方式动态地细化预测。DRH-C：分类，DRH-R：回归），为了解决相关基准的有限可用性，收集了广泛的、完全注释的数据集。
FSM先使用卷积层压缩特征，依次使用批归一化和ReLu函数，以改进信息聚合。为了增强神经元的适应性感受野，采用注意机制以位置方式融合特征。

CFC-NET: A CRITICAL FEATURE CAPTURING NETWORK FOR ARBITRARY-ORIENTED OBJECT DETECTION IN REMOTE SENSING IMAGES
遥感图像中面向任意目标检测的关键特征捕获网络 2021.8 北京理工大学
摘要：提出一种新的目标检测框架，以提取关键特征并利用捕获关键特征的高质量锚来实现优异的检测性能。从三个方面提高检测精度：构建强大的特征表示、细化预设锚和优化标签分配。先将分类和回归特征解耦，然后通过极化注意模块（PAM）构建适合于各个任务的鲁棒关键特征。利用提取的判别回归特征，旋转锚定细化模块对预设水平锚定进行定位细化，以获得更好的旋转锚定。
引入关键特征的概念，主要通过其对于高性能目标检测的重要性，从特征表示、锚点精化和训练样本选择3个方面对一阶段检测器进行优化。具体地，通过基于双FPN的极化注意力机制模块提取解耦的分类和回归关键特征。再对一个预设的锚点进行旋转锚点精化，得到高质量的旋转锚点，可以更好地与关键特征对齐。最后，采用匹配度衡量锚点捕获关键特征的能力，从而筛选出具有高本地化潜力的积极候选者。因此，分类和回归之间的不一致性得到了缓解，并且可以获得高质量的检测性能。

边界框回归：Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors
基于盒边界感知矢量的航空图像中的定向目标检测 2021 CVPR
为了解决基于锚的检测器在正锚盒和负锚盒之间存在严重的不平衡问题，将基于水平关键点的对象检测器扩展到定向对象检测任务。首先检测对象的中心关键点，基于这些关键点回归框边界软件向量以捕获定向边界框。对于所有任意定向的对象，框边界感知向量分布在笛卡尔坐标系的四个象限中。为了减轻在角点情况下学习向量的困难，进一步将定向边界框分为水平边界框和旋转边界框。
定向对象检测方法与基于锚的检测器具有相同的缺点（需要仔细调整纵横比的选择和锚定框的大小，此外，正锚箱和负锚箱之间的极端不平衡也会导致训练速度慢和性能次优），开发了基于关键点的对象检测器，以克服锚定解决方案在水平对象检测任务中的缺点（通过检测边界框的角点，通过比较点的嵌入距离或中心距离对点进行分组），但分组过程耗时，解决方法：检测对象中心，并直接回归边界框的宽度和高度。
在面向对象的检测任务中，没有回归中心点的w，h和θ，而是学习了框边界感知向量（BBA V 向量）来捕获对象的旋转边界框。在角点情况下，向量非常接近象限的边界，网络难以区分向量类型，通过将定向边界框（OBB）分为两类（水平框（HBB）和旋转边界框（RBB）），分别进行处理：提出盒边界感知向量（BBA V向量）来描述OBB。将基于中心关键点的对象检测器扩展到定向检测任务，该模型是单级和无锚箱的。
面向对象检测任务：先构建了一个基线方法，方法直接回归了边界框的宽度w和高度
H以及方向角θ，该基线方法称为中心+wh+θ。该方法缺点：①小角度的变化对训练中的总损失有边际影响，可能导致预测框和地面真实之间的大IOU差异；②对每个物体，其OBB的w和h在相对于y轴具有角度θ的单个旋转坐标系中测量。

定义损失：Learning Modulated Loss for Rotated Object Detection 2022 AAAI
旋转目标检测的学习调制损失
旋转检测方法使用五参数（中心点坐标、宽度、高度和旋转角度）或八参数（四个顶点坐标）来描述旋转的边界和损失作为损失函数，以上整合可能导致训练不稳定和性能退化。原因：是损失的不连续性，由旋转边界框的定义和损失函数之间的矛盾引起的，该问题称为旋转灵敏度误差（RSE）。提出一种调制旋转损耗来消除损耗的不连续性，实现五参数法和八参数法的一致改进。
设计的调制旋转损失，来处理旋转的边界约束，从而在训练期间产生更平滑的损失曲线。也就是在原始损失上加上一个修正项，并取原始损失和修正项的最小值。
五参数方法中的RSE，由两个原因引起：①采用角度参数以及宽度和高度之间的交换有助于边界情况下的突然损失变化（增加）；②五参数模型中存在测量单位的回归不一致。
八参数方法中的RSE，损失不连续性是因实际回归过程与理想过程不一致，导致训练模型更加困难和回归的不平滑。

五参数调制旋转损耗 ：Lcp是中心点损耗，第一项时L1损失，第二项是通过消除角周期性以及高度和宽度的可交换性，使损耗连续的校正。这种校正可以被看作是关于突变位置L1损失的对称性。
八参数调制旋转损耗：①将预测框的四个顶点顺时针移动一个位置；②保持预测框的顶点顺序不变；③将预测框的四个顶点逆时针移动一个位置，取上述三种情况下的最小值。
xi，yi表示预测框和参考框的第i个顶点坐标，xi*，yi*表示地面真值框和参考框的第i个顶点坐标。

Mini-Batch Normalized Mutual Information:A Hybrid feature Selection Method 2019 IEEE
迷你批量标准化互信息：一种混合特征选择方法
考虑到可以通过找到最佳特征集来提高预测期的效率和特征子集通过去除冗余特征来提高分类精度。提出一种新的特征选择机制，过滤器和包装器技术的结合。混合模型基于两阶段过程，对特征进行排序，根据排序选择最佳特征子集。考虑到学习算法在不需要用户输入特征数的情况下获得最佳特征集。
使用小批量Kmeans聚类对数据进行聚类，并使用归一化互信息（NMI：计算候选属性和类之间的相关性和冗余度的度量）对数据进行排序，通过使用随机森林应用贪婪搜索方法来获得最佳特征集。
归一化互信息（NMI）是衡量聚类质量标准的方法之一，这种方法用聚类数计算聚类质量。特征选择（FS）有两个目标函数：①基于过滤方法的特征排序函数；②基于排序选择最佳特征。特征排序在第一阶段，主要思想是基于数据集中的总类逐个单独聚类特征。线性选择方法，明确提供所需数量的最佳特征，将第一阶段的排序特征逐一添加到子集中，特征的添加提高了分类精度，则考虑该特征，否则丢弃该特征。这是一种线性消除方法，从整组特征中逐个消除排名最低的特征。执行此过程直至列表变为空。
随机森立RF是一种流行的有监督的ML技术，灵活且非常容易使用。含大量决策树，每个决策树充当一个单独的分类器，从RF中的每个树中获得一个类预测，获得最多投票的类成为RF的模型预测。随着树数量的增加，分类器具有更强的抗噪声能力并获得更高的精度。

学习情况

看了一些有关PyTorch的搭建视频：
推荐b站up霹雳吧啦Wz的视频，其中也会上传相关github代码研究了卷积形状大小变化具体情况：
卷积变换之后的计算公式

池化层的作用是降维，全连接层是特殊的卷积层，把前一层的输出特征综合起来，该层的权值参数最多。
Resnet50卷积和池化
在这里插入图片描述
这里是使用ResNet50提取UCM数据集，共21类，成功提取了UCM中第一类中的第一张图片的特征：
以下是去pytorch官网找的中文学习教程，先学习了下pytorch，才开始学习用resnet提取图片特征