视觉AI模块笔记
文章平均质量分 64
码元
不想学硬件的苦逼软件学习者
展开
-
快速总结D-FINE
通过较浅层的预测与来自较深层的细化输出对齐,使模型更早的加速收敛,提高整体性能。主流目标检测中,边框回归预测真值框的任务,受到本身回归公式的约束,将边界框边缘视为精确且固定的,使定位不确定性难以建模,必须通过L1损失和IOU损失函数对边缘预测的结果进行指导,在这个过程中收敛缓慢且性能不佳。对于边框回归,引入细粒度分布细化(FDR),将边界框回归从预测固定坐标转换为建模概率分布,从而提供更细粒度的中间表示, FDR 以残差方式迭代地细化这些分布,允许进行逐步更精细的调整,并提高定位精度。原创 2024-10-30 16:45:17 · 914 阅读 · 0 评论 -
快速总结AFPN
特征金字塔架构的提出是为了解决尺度变化的问题,图像中物体真正有用的特征在顶部最高层需要通过多个中间尺度传播,并与这些尺度的特征交互,才能与底部的低层特征融合,便是最常见的是物体特征在缩放时丢失的细节信息,以经典的FPN网络为例,存在高层特征里面低层特征细节不足的问题。而在不同尺度的特征交互,可以避免传输中的信息丢失或退化,但是在特征融合中,逐元素求和不是一种有效的方法,因为不同级别之间在某个位置可能存在不同对象的矛盾。AFPN的引入在多融合过程中利用自适应空间融合操作来过滤特征,保留有用的信息进行融合。原创 2024-10-12 13:58:57 · 412 阅读 · 0 评论 -
快速总结ACmix
自注意力机制:作者根据self-attention的原理,同样分解为两个阶段,把第一个阶段中将Q-K-V三个变量计算过程看成1×1的卷积核计算的过程。两个模块共享相同的1×1的卷积操作,重复使用计算后的特征图进行不同的聚合操作,最后将两个路径的输出加在一起,并由学习的参数进行控制比例。卷积操作:作者将核大小为K*K的卷积操作,进行分解为阶段一与阶段二,在阶段一的操作中存在着与1×1卷积核有着相同的计算构成的一部分。(2)提出了一种优雅的自注意力和卷积模块的集成方式,它兼具两者的优点。总之,上述分析表明,原创 2024-10-11 09:56:58 · 300 阅读 · 0 评论 -
快速总结HAT
图像恢复(Image restoration)是计算机视觉中的一个经典问题,它的目的是从给定的低质量(LQ)输入重建高质量(HQ)图像。通过 LAM,我们可以判断哪些输入像素对所选区域贡献最大。在SwinIR基础上进行改进并提出HAT。原创 2024-10-10 15:26:27 · 245 阅读 · 0 评论