注意力机制Transformer
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
研究机构:Apple
论文链接:https://arxiv.org/pdf/2409.04431
代码链接:https://github.com/apple/ml-sigmoid-attention
注意力是Transformer架构的关键组成部分。它是一种序列到序列的映射,将每个序列元素转换为值的加权和。权重通常是通过键和查询之间的点积的softmax获得的。最近的研究探索了Transformer中softmax注意力的替代方法,例如ReLU和sigmoid激活函数。在这项工作中,作者重新审视了sigmoid注意力,并进行了深入的理论和实证分析。从理论上讲,证明了具有sigmoid注意力的Transformer是通用函数逼近器,并且与softmax注意力相比具有改进的规则性。通过详细的实证分析,发现在训练初期稳定较大的初始注意力范数是成功训练带有sigmoid注意力模型的关键因素,这超过了之前的尝试。还引入了FLASHSIGMOID,这是针对硬件优化且内存高效的sigmoid注意力实现,在H100 GPU上比FLASHATTENTION2快17%的推理内核速度。跨语言、视觉和语音的实验表明,适当归一化的sigmoid注意力在广泛的领域和规模上可以匹敌softmax注意力的强大性能,这是之前对sigmoid注意力的尝试未能完全实现的。该工作统一了先前的研究成果,并为作为Transformer中softmax替代品的sigmoid注意力建立了最佳实践。
伪装检测
【ECCV 2024】Frequency-Spatial Entanglement Learning for Camouflaged Object Detection
论文链接:https://arxiv.org/pdf/2409.01686
代码链接:https://github.com/CSYSI/FSEL
伪装目标检测在计算机视觉领域引起了广泛关注。主要挑战在于空间域中伪装目标与其周围环境高度相似,使得识别变得困难
。现有方法尝试通过复杂的设计最大化空间特征的区分能力以减少像素相似性的影响,但往往忽略了特征在空间域中的敏感性和局部性,导致次优的结果
。本文提出了一种新的方法来解决这一问题,通过联合探索频率域和空间域的表征,引入了频率-空间纠缠学习(FSEL)方法。这种方法包括一系列精心设计的纠缠变换器块(ETB)用于表征学习、联合域感知模块用于语义增强以及双域反向解析器用于频率和空间域的特征整合。具体来说,ETB利用频率自注意力有效地表征不同频带之间的关系,而纠缠前馈网络通过纠缠学习促进不同域特征之间的信息交互。大量实验证明了FSEL在三个广泛使用的数据集上优于21种最先进的方法,通过全面的定量和定性比较展示了其优越性。
【2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection
论文链接:https://arxiv.org/pdf/2409.12421
代码链接:无(作者说将会发布)
伪装目标检测(COD)旨在分割与周围环境具有非常相似模式的伪装目标。最近的研究表明,通过频率信息增强特征表示可以大大减轻前景对象和背景之间的模糊问题
。随着视觉基础模型(如InternImage、Segment Anything Model等)的出现,将预训练模型通过轻量级的适配器模块适配到COD任务上展示了一个新颖且有前景的研究方向。现有的适配器模块主要关注空间域中的特征适配。文中提出了一种针对COD任务的新型频率引导的空间适配方法
。具体来说,将适配器的输入特征变换到频率域。通过对位于频谱图中不重叠圆内的频率分量进行分组和交互,不同的频率分量被动态地增强或减弱,使图像细节和轮廓特征的强度自适应调整。同时,有助于区分对象和背景的特征被突出显示,间接暗示了伪装目标的位置和形状。在四个广泛采用的基准数据集上进行了大量实验,所提出的方法以较大优势超过了26种最先进的方法。
人脸识别
【2024】SymFace: Additional Facial Symmetry Loss for Deep Face Recognition
论文链接:https://arxiv.org/pdf/2409.11816
代码链接:[无]
在过去的十年里,利用先进的机器学习方法提升人脸识别算法取得了稳步进展。损失函数在解决人脸验证问题中扮演着关键角色,并发挥了革命性的作用。这些损失函数主要探索了类内或类间分离的变化。本研究考察了人脸验证问题中的自然现象——面部对称性。左半边脸和右半边脸之间的对称性在近几十年的许多研究领域中得到了广泛应用。本文通过将人脸图像垂直分割成两半来审慎地采用这种简单的方法。基于面部对称性的自然现象可以增强人脸验证方法的假设,假设分割后的人脸的两个输出嵌入向量必须在输出嵌入空间中相互靠近。受到这一概念的启发,根据分割后的人脸对称对的嵌入差异来惩罚网络。对称损失有潜力最小化由于面部表情和光照条件引起的微小不对称特征,从而显著增加类别间的方差
,并导致更可靠的人脸嵌入。这个损失函数推动任何网络在现有的所有网络架构和配置上超越其基线性能,能够实现最先进的结果,并且该方法结合现有的方法(如arcface和adaface)有一定的提升。