小白学视觉-CSDN博客

原创【荐读IEEE TPAMI】基于模型的强化学习与独立想象力

在基于视觉的交互系统中，世界模型学习行动的后果。然而，在实际场景中，如自动驾驶，存在不可控制的动态，这些动态独立于或与行动信号稀疏相关，这使得学习有效的世界模型变得具有挑战性。为了解决这个问题，我们提出了Iso-Dream++，这是一种基于模型的强化学习方法，具有两个主要贡献。首先，我们优化了逆动力学，鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次，我们基于解耦的潜在想象进行策略优化，我们将不可控制的状态滚动到未来，并将其与当前可控制的状态自适应地关联起来。

2024-05-18 19:15:00 1242

原创【荐读IEEE TPAMI】无监督去雨：非对称对比学习与自相似性相遇

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外，现有方法主要独立利用图像或雨层的属性，很少有方法考虑它们之间的相互排斥关系。为了解决这一困境，我们探索了每层内部的内在自相似性以及两层之间的相互排斥性，并提出了一种无监督的非局部对比学习（NLCL）去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起，而雨块作为负样本则被显著地推开，反之亦然。

2024-05-13 12:24:06 1049

原创医图论文 Arxiv‘25 | GraphITE：基于图的可解释组织检查用于增强乳腺癌病理学的可解释性

在医学病理学中，可解释的人工智能（XAI）对于增强深度学习模型在癌症诊断中的可解释性和临床可信度至关重要。然而，这些模型的“黑箱”性质往往限制了其在临床中的应用。作者提出了GRAPHITE（基于图的可解释组织检查），一种用于乳腺癌组织微阵列（TMA）分析的后处理可解释框架。GRAPHITE采用多尺度方法，提取不同放大倍率的图像块，构建层次图，并利用图注意力网络（GAT）和尺度注意力网络（SAN）来捕捉尺度依赖的特征。作者在140个肿瘤TMA核心和4个良性全切片图像上训练了模型，并从中创建了140个良性样本，

2025-06-05 09:30:00 9

原创 ACM MM‘24 | 基于 CT 扫描的多域解耦多视图 X 射线图像合成

X射线图像凭借其高分辨率和快速成像速度，在术中过程中发挥着至关重要的作用，极大地推动了后续的分割、配准和重建工作。然而，过量的X射线在一定程度上给人体健康带来了潜在风险。从体积扫描数据生成X射线图像的数据驱动算法，受到X射线与体积数据配对稀缺的限制。现有的方法主要是通过对整个X射线成像过程进行建模来实现。在本研究中，作者提出了一种基于学习的方法，称为CT2X - GAN，它利用来自三个不同图像域的内容和风格解耦，以端到端的方式合成X射线图像。

2025-06-05 09:30:00 5

原创医图论文 Arxiv‘25 | SCC-YOLO: 一种改进的用于辅助脑肿瘤诊断的目标检测器

脑肿瘤可能导致神经功能障碍、认知和心理状态改变、颅内压增高以及癫痫发作，从而对人类生命和健康构成重大威胁。You Only Look Once (YOLO) 系列模型在医学图像目标检测中表现出卓越的准确性。本文通过将SCConv注意力机制集成到YOLOv9中，开发了一种新颖的SCC-YOLO架构。SCConv模块通过减少特征之间的空间和通道冗余，重建了一个高效的卷积模块，从而增强了图像特征的学习能力。

2025-06-04 09:30:00 16

原创 MICCAI 2023 | 用于医学图像分割的深度学习模型认证

在医学成像领域，过去十年里分割模型取得了显著进展，如今已在临床实践中得到日常应用。然而，与分类模型类似，分割模型也会受到对抗攻击的影响。在像医疗保健这样对安全至关重要的领域，对模型预测进行认证极为重要。最近提出的随机平滑方法提供了一个对模型进行认证并获得理论保证的框架。在本文中，作者首次提出了一种基于随机平滑和扩散模型的医学成像认证分割基线。研究结果表明，利用去噪扩散概率模型的强大能力有助于克服随机平滑的局限性。

2025-06-04 09:30:00 15

原创 TMI 2024 | RemixFormer++：一种用于精确皮肤肿瘤鉴别诊断的多模态Transformer模型，具有高效记忆注意力机制

多模态Transformer模型：提出了一种名为RemixFormer++的新型Transformer模型，结合了临床图像分支、皮肤镜图像分支和元数据分支，能够有效处理多模态数据，提升皮肤肿瘤诊断的精度。自上而下与自下而上的注意力机制：高效记忆的注意力机制：针对临床图像和皮肤镜图像的不同特性，设计了高效记忆的注意力策略，能够在处理高分辨率图像时减少GPU内存消耗。多模态数据融合：通过跨模态融合模块（CMF），将临床图像、皮肤镜图像和元数据特征有效结合，显著提升了疾病分类的准确性。由于各类皮肤肿瘤的视觉特征模

2025-06-03 09:30:00 21

原创 MIA 2025 | HiFi-Syn：用于高保真结构保留磁共振图像合成的层次粒度判别法

在医学研究中，合成医学图像并保留其结构信息至关重要。在这种情况下，解剖内容的保留尤为重要。尽管最近通过纳入实例级信息来指导转换取得了一些进展，但这些方法忽略了结构级表示的空间连贯性以及转换过程中内容的解剖不变性。为了解决这些问题，作者引入了层次粒度判别，利用医学图像中存在的不同层次的语义信息。作者的策略使用了三个层次的判别粒度：使用脑记忆库进行像素级判别；对每个脑结构采用重加权策略进行结构级判别，以关注难样本；以及全局级判别，以确保转换过程中的解剖一致性。

2025-06-03 09:30:00 424

原创 TPAMI 2025 | 从类别翻转分布角度改进对抗训练

对抗训练已被提出并被广泛认为是一种非常有效的抵御对抗噪声的方法。然而，不同类别上的标签翻转模式仍需更深入的探索，以发现潜在问题并助力进一步提升模型的鲁棒性。在这项工作中，作者通过统计调查对类别翻转分布进行建模，发现该分布揭示了两个缺点：模型对每个类别的数据预测中都存在极易产生误导的类别，且不同类别间的翻转趋势差异显著。基于这些观察，作者提出了一种类别翻转感知对抗训练（CFAT）方法。

2025-06-03 09:30:00 16

原创 MICCAI 2023 | 医学图像分割的联合损失边界差异

医学图像分割对临床诊断至关重要。然而，当前用于医学图像分割的损失函数主要关注整体分割结果，针对边界分割的损失函数较少。现有的边界分割损失函数通常需要与其他损失函数结合使用，且效果不佳。为解决这一问题，作者提出了一种简单有效的损失函数——边界差交并比损失（Boundary DoU Loss），用于指导边界区域的分割。该损失函数通过计算预测结果与真实标签的差集与差集和部分交集的并集的比值得到。作者提出的损失函数仅依赖于区域计算，易于实现，训练稳定，无需额外的损失函数。

2025-06-03 09:30:00 16

转载传统CNN被淘汰？边界注意力如何改写手术机器人规则？

教辅老机构，我们与学员签订正式服务协议+保密协议，解决你的后顾之忧！最适合的学习路径，助您快速掌握各类计算机sci论文以及sci论文的核心技能，轻松发表高质量SCI论文！不仅自己能写出顶会一作，更指导出多名发独立一作论文的学生，满足人工智能各个方向的辅导需求！带大家深入探讨深度学习领域的最新突破，聚焦卷积神经网络（CNN）与注意力机制的融合创新。从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿的一站式科研服务。对于指定区位的学员，不仅仅是交付初稿，被拒稿被退稿我们提供维护服务，

2025-06-02 19:00:51 6

原创医图论文 MIA 2025 | 具有不确定性量化的超关联图匹配网络用于冠状动脉语义标注

markdown冠状动脉疾病（CAD）是全球主要的死亡原因之一。从侵入性冠状动脉造影（ICA）中准确提取单个动脉分支，对于CAD诊断和狭窄检测至关重要。通过基于深度学习的模型为冠状动脉生成语义分割存在挑战，因为不同类型的冠状动脉在形态上具有相似性，这使得在保持低计算复杂度的同时维持较高的准确率变得困难。为应对这一挑战，作者提出了一种创新方法，即使用带不确定性量化的超关联图匹配神经网络（HAGMN-UQ）对ICA图像进行冠状动脉语义标注。图匹配过程在两个单独的图之间映射动脉分支，从而通过已标注的动脉段对未标注

2025-06-02 12:00:00 307

原创 MICCAI 2023 | 基于扩散模型的医学图像分割标注共识预测

医学图像分割中的一个重大挑战是，多位专家提供的标注存在较大的观察者间和观察者内差异。为应对这一挑战，作者提出了一种使用扩散模型进行多专家预测的新方法。该方法利用基于扩散的方法，整合来自多个标注的信息，并将其融合成一个统一的分割图，以反映多位专家的共识。作者在多个由多位专家标注的医学分割数据集上评估了该方法的性能，并将其与现有最先进的方法进行了比较。结果证明了该方法的有效性和鲁棒性。代码可在上公开获取。

2025-06-02 12:00:00 18

原创 IJCV 2024 | 基于图像提示基础模型的免训练开放世界分割研究

随着基础模型的出现，计算机视觉领域发生了范式转变，这与大语言模型在自然语言处理领域的变革性影响相呼应。本文深入探索开放世界分割，提出一种名为图像提示分割（IPSeg）的新方法，该方法利用了视觉基础模型的强大能力。IPSeg遵循免训练范式，借助图像提示技术。具体而言，IPSeg使用包含主观视觉概念的单张图像作为灵活提示，向DINOv2和Stable Diffusion等视觉基础模型进行查询。

2025-06-02 09:30:00 23

原创 TITS 2024 | 用于交通场景中多目标同时检测与跟踪的 Yolo - 3DMM 模型

基于视频的多目标跟踪（MOT）是智能交通领域的一项基础任务，其应用涵盖从自动交通监控到自动驾驶等多个方面。MOT方法通常遵循检测跟踪范式，通过在视频帧间关联目标检测结果来跟踪物体。然而，目前这些方法尚未充分利用车辆轨迹的整体运动特征进行跟踪，也未将车辆定位问题转化为运动参数估计问题。此外，MOT方法主要依赖现成的检测器，而独立训练的检测器对于检测跟踪范式并非最优选择，会对整个系统性能产生不利影响。在本文中，作者提出一种针对交通场景中移动车辆的新型MOT方法，以解决上述问题。

2025-06-02 09:30:00 259

原创 TPAMI 2025 | 多空间神经辐射场（MS-NeRF）

现有的神经辐射场（Neural Radiance Fields, NeRF）方法在处理反射物体时存在不足，常常导致渲染结果模糊或失真。作者提出了一种多空间神经辐射场（MS-NeRF），它通过在并行子空间中使用一组特征场来表示场景，从而使神经网络能更好地理解反射和折射物体的存在。这种多空间方案是对现有NeRF方法的一种增强，在训练和推断额外空间输出时仅需少量的计算开销。

2025-06-02 07:38:48 217

原创 TPAMI 2025 | 基于图循环网络的文本理解预训练

近年来，基于Transformer的预训练模型取得了很大进展，Transformer架构也成为自然语言处理中最重要的骨干架构之一。最近的研究表明，Transformer内部的注意力机制可能并非必要，并且诸如卷积神经网络、多层感知机和状态空间模型等Transformer替代方案也已得到研究。基于Transformer的模型主要有两个局限性：第一，由于其全注意力机制，时间复杂度为二次方，导致计算成本较高。第二，它们依赖于诸如[CLS]这样的特殊标记来编码整个文本，这限制了其句子级别的表达能力。

2025-06-02 07:37:34 16

原创医图论文 Arxiv‘25 | 无监督领域自适应用于遮挡鲁棒的人体姿态估计

遮挡是人体姿态估计算法面临的一个重大挑战，通常会导致不准确且解剖学上不合理的结果。尽管当前的遮挡鲁棒人体姿态估计算法在现有数据集上表现出色，但其成功主要归功于监督训练和额外信息的可用性，例如多视图或时间连续性。此外，这些算法通常在分布变化下表现不佳。虽然现有的领域自适应人体姿态估计算法解决了这一瓶颈，但在目标域图像被遮挡时（现实场景中常见的情况），它们的表现往往不理想。为了解决这些挑战，作者提出了OR-POSE：一种用于遮挡鲁棒人体姿态估计的无监督领域自适应算法。

2025-06-01 09:30:00 15

原创 Arxiv‘25 | 基于先验引导的混合感知方法与广泛基准分析的水下图像恢复

水下成像面临光与水相互作用的挑战，导致颜色失真和清晰度下降。针对这些挑战，作者提出了一种新颖的颜色平衡先验引导的混合感知水下图像恢复框架（GuidedHybSensUR）。该框架在多个尺度上操作，利用提出的细节恢复模块在更细的尺度上恢复低层次的细节特征，并利用特征上下文化模块在更广泛的尺度上捕捉高层次特征的远程上下文关系。这些不同尺度的感知结果的混合有效地解决了颜色偏差并恢复了模糊的细节。为了有效地指导模型的进化方向，作者提出了一种新颖的颜色平衡先验。

2025-06-01 09:30:00 17

原创 TPAMI 2025 | 全连接Transformer用于多源图像融合

多源图像融合将来自多个图像的信息合并为一个数据，从而提高成像质量。这一主题在学术界引起了极大的兴趣。尽管现有的基于自注意力的Transformer方法可以捕捉空间和通道相似性，但如何整合来自不同来源的信息仍然是一个巨大的挑战。在本文中，作者首先讨论了所提出的广义自注意力机制背后的数学概念，其中现有的自注意力被视为基本形式。该机制采用多重线性代数来推动一种新颖的全连接自注意力（FCSA）方法的发展，以充分利用多源图像之间的局部和非局部特定领域相关性。此外，作者提出了一种多源图像表示，并将其作为优化问题中的非局

2025-06-01 09:30:00 21

原创 TPAMI 2025 | 基于隐式形状与外观先验的少样本全头部重建

近年来，采用基于坐标的神经表示的学习技术在多视图3D重建任务中取得了显著成果。然而，这些方法通常需要大量的输入视图（通常几十个）和计算密集型的优化过程才能发挥作用。在本文中，作者专门针对少样本全3D头部重建问题解决这些限制。作者通过将概率形状和外观先验纳入基于坐标的表示中，使得在仅使用少量输入图像（甚至低至单张图像）时也能实现更快的收敛和更好的泛化。在测试阶段，作者利用这一先验，通过可微渲染器指导有符号距离函数的拟合过程。

2025-06-01 09:30:00 29

原创 MICCAI 2023 | 基于扩散概率模型的组织学图像伪影修复

组织学全切片图像（WSIs）通常会受到伪影的影响，例如组织折叠和气泡，这会增加病理学家和计算机辅助诊断（CAD）系统的检查难度。现有的伪影图像修复方法局限于生成对抗网络（GANs），其修复过程被表述为图像到图像的转换。这些方法容易出现模式崩溃和染色风格意外误转换的问题，导致修复后的图像效果不理想且不真实。创新地，作者首次尝试使用去噪扩散概率模型进行组织学伪影修复，即ArtiFusion。具体而言，ArtiFusion将伪影区域修复表述为一个渐进的去噪过程，并且其训练仅依赖于无伪影图像，以简化训练复杂度。

2025-06-01 09:30:00 23

转载小米多模态大模型开源！MiMo-VL：通向Agent时代的推理基座！

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时，在多模态推理任务上，仅用7B参数规模，在奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse）大幅领先10倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越闭源模型 GPT-4o。在 RL 训练过程中，通过不断扩充训练窗口大小（32K->48K），MiMo-7B-RL-0530 的 AIME24 效果可以持续提升，并超过 DeepSeek R1。

2025-05-31 20:01:17 31

原创 TIP 2024 | 学习对比增强的形状偏置表示用于红外小目标检测

红外小目标检测在复杂背景下面临着纹理模糊、对比度低和形状变化等挑战。本文提出了一种通过学习对比增强的形状偏置表示来促进红外小目标检测的方法。该方法通过级联一个对比-形状编码器和一个形状可重构解码器来学习能够有效识别目标对象的判别性表示。对比-形状编码器应用中心差分卷积和大核卷积来从输入的红外图像中提取形状保持的特征。这种卷积设计能够有效克服低对比度和形状变化的挑战。

2025-05-31 17:24:00 94

原创 Arxiv‘25 | 基于尺度双向对齐网络的遥感图像指代分割

指代遥感图像分割（RRSIS）的目标是通过自然语言描述从航拍图像中提取特定的像素级区域。近年来，基于Transformer的融合设计在这一领域取得了显著进展。然而，现有方法主要集中在跨模态融合阶段使用语言感知指导来优化视觉特征，忽略了视觉到语言的互补信息流。这一限制通常导致不相关或次优的表示。此外，航拍图像中地面物体的多样化空间尺度对现有模型在文本输入条件下的视觉感知能力提出了重大挑战。本文提出了一种创新的框架，称为尺度双向对齐网络（SBANet），以应对这些挑战。

2025-05-31 17:22:54 15

原创 MIA 2025 | 基于扩散增强的自监督图对比学习用于功能磁共振成像分析和脑部疾病检测

静息态功能磁共振成像（rs-fMRI）提供了一种用于研究大脑活动模式的非侵入性成像技术，并且越来越多地被用于辅助自动化脑部疾病分析。现有的基于功能磁共振成像（fMRI）的学习方法通常依赖有标记的数据来构建学习模型，而数据标注过程通常需要大量的时间和资源投入。图对比学习为解决小样本标记数据问题提供了一种很有前景的解决方案，它通过增强fMRI时间序列进行自监督学习。然而，这些方法中采用的数据增强策略可能会破坏原始的血氧水平依赖（BOLD）信号，从而阻碍后续的fMRI特征提取。

2025-05-31 17:19:36 18

原创医图论文 MIA 2025 | 基于流的截断去噪扩散模型用于磁共振波谱成像超分辨率

磁共振波谱成像（MRSI）是一种用于研究新陈代谢的非侵入性成像技术，已成为理解神经系统疾病、癌症和糖尿病的关键工具。高空间分辨率的MRSI对于表征病变至关重要，但在实际应用中，由于代谢物浓度较低导致的时间和灵敏度限制，MRSI通常以低分辨率采集。因此，迫切需要一种后处理方法，能够从低分辨率数据中生成高分辨率的MRSI图像，且这些低分辨率数据能够快速、高灵敏度地获取。基于深度学习的超分辨率方法在提高MRSI空间分辨率方面展现出了有前景的结果，但它们在生成准确、高质量图像方面的能力仍然有限。

2025-05-31 17:18:43 13

原创 MICCAI 2023 | 医学图像分割的不对称轮廓不确定性估计

随机不确定性估计是医学图像分割中的关键步骤。大多数用于分割目的的随机不确定性估计技术假设神经网络的对数几率值服从高斯分布，以此来建模预测类别的不确定性。然而，在许多情况下，如图像分割，对于特定结构的存在并无不确定性，而是关于该结构的精确轮廓存在不确定性。因此，作者通过将传统的逐像素分割任务重新定义为轮廓回归问题，明确地对位置不确定性进行建模。这使得能够使用更合适的多元分布来建模轮廓点的不确定性。此外，由于轮廓不确定性可能是不对称的，作者使用了多元偏态高斯分布。

2025-05-31 17:17:29 17

原创 TPAMI 2025 | 用于极端标签分类的多头编码

现实世界中实例的类别数量通常极为庞大，并且每个实例可能包含多个标签。为了利用机器学习区分这些海量标签，极端标签分类（XLC）应运而生。然而，随着类别数量的增加，分类器中的参数数量和非线性运算也随之增加，这就导致了分类器计算过载问题（CCOP）。为了解决这个问题，作者提出了一种多头编码（MHE）机制，用多头分类器取代传统的分类器。在训练过程中，MHE将极端标签分解为多个短的局部标签的乘积，每个头在这些局部标签上进行训练。在测试时，预测标签可以直接从每个头的局部预测中计算得出，这从几何意义上减少了计算量。

2025-05-31 17:13:31 16

原创 TPAMI 2025 | 探索多模态图像融合中的协同高阶交互作用

多模态图像融合旨在通过整合和区分来自多个源图像的跨模态互补信息，生成融合图像。虽然具有全局空间交互的交叉注意力机制前景看好，但它仅捕捉二阶空间交互，忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态之间协同效应的挖掘。为了弥合这一差距，作者引入了协同高阶交互范式（SHIP），旨在从两个基本维度系统地研究多模态图像之间的空间细粒度和全局统计协作：1）空间维度：作者通过逐元素乘法构建空间细粒度交互，这在数学上等同于全局交互，然后通过迭代聚合和演化互补信息来促进高阶形式，提高效率和灵活性。

2025-05-31 17:12:21 25

转载 10 分钟学会使用 YOLO + OpenCV 实现目标检测

直到2015年，faster R-CNN才成为真正的端到端深度学习目标检测器，删除了选择性搜索的要求，而是依赖于（1）完全卷积的区域提议网络（RPN）和（2）可以预测对象边界框和“对象”分数（量化它是一个区域的可能性的分数）。那么，今天将向读者介绍该领域中表现优异的一种算算法——“你只需要看一次”（you only look once，yolo），提出该算法的作者风趣幽默可爱，其个人主页及论文风格显示了其性情，目前该算法已是第三个版本，简称YoLo V3。最后，显示结果图像，直到用户按下键盘上的任意键。

2025-05-30 14:29:09 7

转载 Llama核心团队大面积跑路：14人中11人出走，Mistral成主要去向！

总而言之，这些核心人员的相继离职，标志着曾帮助 Meta 在开放模型领域建立 AI 声誉的团队正在悄然瓦解。它帮助开放权重的大型语言模型获得了认可，这些模型的底层代码和参数可供他人自由使用、修改和在此基础上进行开发，成为了当时专有系统（如 OpenAI 的 GPT-3 和 Google 的 PaLM）的有力替代品。Meta 在 AI 领域投入了数十亿美元，但至今仍没有推出专有的「推理」模型，人们逐渐转向使用提供更先进功能的模型，Meta 在开源领域与竞争对手的差距也变得更为明显。

2025-05-29 19:01:51 21

原创 TPAMI 2025 | Instruct-ReID++：迈向通用的指令引导行人重识别

近年来，行人重识别（ReID）因其广泛的实际应用而发展迅速，并出现了多种设定，如传统ReID、换装ReID和可见光 - 红外ReID。然而，当前研究主要集中在单一特定任务上，这限制了模型在现实场景中的适用性。本文旨在通过引入一种新颖的instruct - ReID任务来解决这一问题，该任务将6种现有的ReID任务统一在一个模型中，并根据提供的视觉或文本指令检索图像。instruct - ReID是对通用ReID设定的首次探索，通过分配不同的指令，现有的6种ReID任务可以被视为其特殊情况。为了便于在这个新的

2025-05-29 09:30:00 23

原创 TPAMI 2025 | 稀疏非局部条件随机场及其应用

条件随机场（CRF）在传统和深度学习计算机视觉中对空间一致性进行建模。最常见的CRF称为成对CRF，因为它连接像素对。成对CRF有两种类型：稀疏型和密集型。稀疏CRF连接相邻像素，其连接数量与图像大小呈线性关系。密集CRF连接所有像素对，其连接数量与图像大小呈二次方关系。虽然密集CRF是更通用的模型，但它的效率远低于稀疏CRF。实际上，在实践中仅使用高斯边缘密集CRF，而且即便如此也需进行近似处理。作者提出了一种新的成对CRF，称为稀疏非局部CRF。与密集CRF一样，它具有非局部连接，因此比稀疏CRF更通用

2025-05-29 09:30:00 23

转载通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

值得一提的是，研究人员观察到，在基于 InternBootcamp 的多任务混合训练过程中，出现了强化学习的 “涌现时刻”：在单一任务中，无法成功推理得到奖励的模型，通过多个任务混合的强化学习，能够在训练过程中成功得到奖励，实现领域外专业任务的有效强化学习训练。用户在与 InternThinker 对弈的过程中，大模型化身为循循善诱的 “教练”，它能全面地分析当前局面形势，对不同的落子点进行判断和对比，并给出明确的结果，让用户了解每一步棋背后的推理过程和决策依据，从而帮助用户更好地理解和学习围棋。

2025-05-28 14:14:19 25

转载使用OpenCV实现图像去阴影

浏览OpenCV相关文章时看到了《基于OpenCV的图像阴影去除》，源码也是用pytyon实现的，分析了一下其原理，这篇我们用OpenCV的C++版来实现一下。如果只复制代码可以将CvUtils的引用都去掉，这个类中我写了几个静态函数，主要是加载的图像在当前屏幕分辨率下能够显示全，还有就是自己设定图像显示的区域位置。从上图中可以看到，最左边为原图转换的灰度图，中间图为去掉阴影后再归一化后的图，最右边是直接通过去掉阴影实现的图。本文用的图片也是源码中提供的测试图片。先膨胀后腐蚀后的图减去原灰度图再取反。

2025-05-28 14:14:19 15

原创医图论文 Arxiv‘25 | 一种新颖的形状引导Transformer网络用于遥感图像中的实例分割

遥感图像（RSI）中的实例分割性能受到两个问题的显著影响：如何从动态大气中的遥感成像中提取准确的物体边界，以及如何整合分散在广阔空间区域中的相关物体实例的互信息。在本研究中，作者提出了一种新颖的形状引导Transformer网络（SGTN），以在实例级别准确提取物体。受自注意力机制的全局上下文建模能力启发，作者提出了一种有效的Transformer编码器，称为LSwin，它结合了垂直和水平的一维全局自注意力机制，以获得比流行的基于局部移位窗口的Swin Transformer更好的全局感知能力。

2025-05-28 09:30:00 20

原创 TETCI 2024 | YOLO-SM：一种轻量级单类多变形物体检测网络

近年来，随着卷积神经网络（CNNs）的迅速发展，目标检测取得了巨大进展。然而，目标检测主要针对多类任务，很少有网络用于检测单类多变形物体。本文旨在开发一种用于单类多变形物体的轻量级目标检测网络，以推动目标检测网络的实际应用。首先，作者设计了一种密集连接多尺度（DCM）模块，以增强对变形物体的语义信息提取能力。结合DCM模块和其他策略，作者设计了一种用于目标检测的轻量级骨干结构，即DCMNet。然后，作者利用特征线性生成策略构建了一种轻量级的颈部结构——Ghost多尺度特征（GMF）模块，用于特征融合。

2025-05-28 09:30:00 34

原创 TPAMI 2025 | 双边人岗匹配的拟度量学习

在在线招聘中，将雇主提供的合适岗位与合格的求职者相匹配是一项至关重要的任务。通常，求职者和雇主在招聘市场中都有特定的期望，这使得他们分别倾向于类似的岗位和求职者。度量学习为捕捉求职者与岗位之间的相似性传播提供了一种有前景的方法。然而，现有的度量学习技术依赖于对称距离度量，无法对招聘场景双向选择过程中双边用户（即求职者和雇主）的非对称关系进行建模。此外，用户（如求职者）的行为在很大程度上受到其对应方（如雇主）的行动和反馈的影响。而现有的人岗匹配方法主要探索同构且无向的图，很难捕捉到这些影响。为了解决这些问题，

2025-05-28 09:30:00 33

原创 TPAMI 2025 | 基于度量一致图集的时间一致曲面重建

作者提出了一种从随时间演变的点云序列中无监督重建时间一致的表面序列的方法。该方法能在各帧之间产生密集且具有语义意义的对应关系。作者将重建的表面表示为由神经网络计算的地图集，这使得能够在各帧之间建立对应关系。使这些对应关系具有语义意义的关键在于确保在对应点处计算的度量张量尽可能相似。作者设计了一种优化策略，使得该方法对噪声和全局运动具有鲁棒性，无需先验对应关系或预对齐步骤。因此，该方法在几个具有挑战性的数据集上的表现优于当前最先进的方法。假设输入为3D点云的时间序列P1PKP1...PK。

2025-05-28 09:30:00 95

Python视觉实战项目31讲.pdf

空空如也