- 博客(223)
- 资源 (2)
- 收藏
- 关注
原创 TMI 2024 | 组织病理学图像中结构嵌入核的分类方法
细胞核分类为组织病理学图像分析提供了有价值的信息。然而,不同类型的细胞核在外观上的巨大变化导致了识别细胞核的困难。大多数基于神经网络的方法受到卷积的局部感受野的影响,很少关注细胞核的空间分布或细胞核的不规则轮廓形状。在本文中,我们首先提出了一种新颖的多边形结构特征学习机制,将细胞核轮廓转换为按顺序采样的点序列,并使用递归神经网络聚合关键点之间距离的序列变化来获得可学习的形状特征。接下来,我们将组织病理学图像转换为图结构,以细胞核为节点,并构建图神经网络将细胞核的空间分布嵌入到它们的表示中。
2025-04-30 09:30:00
15
原创 TIM 2024 | MF-YOLO:一种用于实时危险驾驶行为检测的轻量级方法
危险驾驶行为是一个严重的问题,会对驾驶员造成伤害,并进一步加重交通负担。“你只看一次”(YOLO)模型是一种常用的快速检测模型,适用于实时危险驾驶行为检测,但检测性能较差。为了解决这个问题,作者提出了一种名为多融合YOLO(MF - YOLO)的轻量级目标检测模型,该模型在小目标检测方面表现出卓越的能力,并且与移动芯片组具有良好的兼容性。首先,作者设计了一种新颖的骨干网络,使用卷积和视觉Transformer(ViT)多融合块来融合局部和全局上下文信息。
2025-04-30 09:30:00
10
原创 TPAMI 2024 | 事件增强的快照压缩视频成像技术:10K FPS
视频快照压缩成像(SCI)将目标动态场景紧凑地编码为快照,并在事后重建其高速帧序列,从而大大减少了所需的数据量和传输带宽,同时使得低帧率强度相机能够实现高速成像。在实际应用中,高速动态通过时间变化的模式进行编码,只能重建相应时间间隔的帧,而连续帧之间的动态信息则丢失了。为了释放传统快照压缩视频成像的潜力,我们提出了一种新颖的“强度+事件”混合成像方案,通过将事件相机引入视频SCI系统中。
2025-04-30 09:30:00
9
原创 TPAMI 2025 | 通过快速查找质量和距离峰值实现自主聚类
聚类是生物学、化学、天文学和模式识别等众多科学领域中不可或缺的分析工具。本文介绍了一种新颖的聚类算法,作为现有方法的有力替代方案。该算法基于一个直观的原理:一个簇应与其质量更高的最近邻合并,除非两个簇的质量都相对较大且它们之间的距离也很显著。通过识别质量和距离的峰值,该算法能有效检测并消除错误的合并。所提出的方法完全无参数,能够自主识别各种类型的簇,确定最佳的簇数量,并识别噪声。在合成数据集和真实数据集上进行的大量实验表明,与其他最先进的方法相比,该算法具有通用性和始终出色的性能。考虑一个数据集表示为X。
2025-04-30 09:30:00
13
原创 CVPR 2025 | 迈向可泛化的场景变化检测
当前最先进的场景变化检测(SCD)方法在经过充分训练的研究数据上取得了令人瞩目的成果,但在未见环境和不同时间条件下却变得不可靠。在先前未见的环境中,领域内性能从77.6%骤降至8.0%,在不同时间条件下更是降至4.6%,这迫切需要可泛化的SCD方法和基准测试。在这项工作中,作者提出了可泛化场景变化检测框架(GeSCF),该框架致力于解决未见领域的性能问题和时间一致性问题,以满足对通用SCD日益增长的需求。作者的方法以零样本方式利用预训练的分割一切模型(SAM)。
2025-04-30 09:30:00
14
原创 医图论文 MIA 2025 | 利用蒙特卡罗任意掩码曼巴网络提升医学图像重建中的全局敏感性和不确定性量化
深度学习已广泛应用于医学图像重建,其中卷积神经网络(CNNs)和视觉变换器(ViTs)是主要的范式,它们各有优势和局限性:CNNs具有线性复杂度和局部敏感性,而ViTs具有二次复杂度和全局敏感性。新兴的Mamba在学习视觉表征方面表现出优越性,它结合了线性可扩展性和全局敏感性的优点。在本研究中,作者提出了MambaMIR,这是一种基于任意掩码Mamba的模型,结合小波分解用于联合医学图像重建和不确定性估计。一种新颖的任意扫描掩码(ASM)机制“屏蔽”冗余信息,引入随机性以进行进一步的不确定性估计。
2025-04-30 09:30:00
9
原创 医图论文MICCAI 2023 | 全幻灯片图像语义分割中用于主动学习的自适应区域选择
为训练有监督的分割模型,对组织学千兆像素级全切片图像(WSI)进行像素级标注的过程十分耗时。基于区域的主动学习(AL)是在有限数量的标注图像区域上训练模型,而非对整个图像进行标注。这些标注区域是迭代选择的,目标是在最小化标注面积的同时优化模型性能。标准的区域选择方法会评估指定大小的所有方形区域的信息价值,然后选择特定数量的最具信息价值的区域。作者发现,这种方法的效率高度依赖于主动学习步长的选择(即区域大小和每张全切片图像所选区域数量的组合),次优的主动学习步长可能导致冗余的标注请求或增加计算成本。
2025-04-30 09:30:00
14
原创 TGRS 2024 | PLFM:通过解缠和融合时空数据对中间特征图进行像素级融合以实现去云
去云是遥感领域的一个重要课题,有助于提高中高分辨率光学(OPT)图像在地球监测和研究中的可用性。最近,深度生成模型和基于序列到序列的模型的应用已证明它们能显著推动该领域的发展。然而,仍存在一些不足:云层覆盖量、景观的时间变化以及云层的密度和厚度等方面仍需进一步研究。作者在这项工作中通过引入一种创新的深度模型来填补这些不足。所提出的模型是多模态的,依赖空间和时间信息源来恢复感兴趣的整个光学场景。作者利用时间序列融合和合成孔径雷达(SAR)到光学图像的直接转换结果,对整个场景进行逐像素恢复。
2025-04-29 09:30:00
27
原创 TII 2024 | 基于自适应质心对齐解耦学习的多目标领域故障诊断
目前大多数用于故障诊断的领域自适应方法都聚焦于单目标领域。然而,测试数据往往来自多个目标领域,因为机器在不同的运行条件下工作,会产生更复杂、更广泛的目标数据分布。遗憾的是,单目标领域自适应方法无法适用于多目标领域自适应(MTDA),这会导致迁移性能下降。为此,作者提出了一种新的基于自适应质心对齐的解耦学习方法,用于多目标领域的故障诊断。具体来说,在解耦学习方面,作者独立构建了两个编码器和两个分类器,分别用于故障相关和领域相关的特征提取与分类。接着,采用双对抗策略,只提取与故障相关但与领域无关的特征。
2025-04-29 09:30:00
17
原创 TPAMI 2024 | 基于影响函数的二阶通道剪枝:无需重新训练即可评估剪枝的真实损失变化
通道剪枝的一个挑战是设计高效且有效的标准来选择要剪枝的通道。一个广泛使用的标准是最小的性能退化,例如剪枝前后的损失变化最小。为了准确评估真实的性能退化,需要对剪枝后的权重进行重新训练直至收敛,这一过程非常耗时。因此,现有的剪枝方法通常使用剪枝前的权重(无需重新训练)来评估性能退化。然而,我们观察到,重新训练前后的损失变化存在显著差异。这促使我们开发一种无需重新训练即可评估真实损失变化的技术,从而更可靠和自信地选择要剪枝的通道。
2025-04-29 09:30:00
29
原创 TPAMI 2025 | 无约束模糊 C 均值算法
模糊C均值算法(FCM)是最常用的模糊聚类算法之一,它采用交替优化算法来更新隶属度矩阵和聚类中心矩阵。FCM在聚类任务中取得了不错的效果。然而,由于存在诸多约束条件,其目标函数直接优化较为不便,且容易收敛到次优的局部最小值,进而影响聚类性能。在本文中,作者提出了一个与FCM等价的最小化问题。首先,作者利用固定聚类中心矩阵时的最优解来替换隶属度矩阵,将原本的约束优化问题转化为无约束优化问题,从而减少了变量的数量。接着,作者使用梯度下降法替代交替优化来求解该模型,因此将这个模型称为UC - FCM。
2025-04-29 09:30:00
11
原创 医图论文 MIA 2025 | 基于高保真原型的少样本医学图像分割
少样本语义分割(FSS)旨在让预训练模型适应新类别,每个类别仅需一个带标签的训练样本。尽管基于原型的方法已取得显著成功,但现有模型局限于目标显著且背景不太复杂的成像场景,例如自然图像。这使得这些模型在医学成像中效果欠佳,因为医学图像不满足上述条件。为解决这一问题,作者提出了一种新颖的细节自精炼原型网络(DSPNet),用于构建能更全面代表目标前景和背景的高保真原型。具体而言,为在构建全局语义的同时保留捕捉到的细节语义,作者通过聚类对多模态结构进行建模,然后以通道融合的方式学习前景原型。
2025-04-29 09:30:00
4
原创 医图论文 MIA 2024 | SFPL: 针对不平衡医学图像分类的样本特异性细粒度原型学习
不平衡分类是许多医学图像分析应用中的常见且困难的任务。然而,大多数现有方法侧重于平衡类别之间的特征分布和分类器权重,而忽略了类内异质性和每个样本的个体性。本文提出了一种样本特异性细粒度原型学习(SFPL)方法,通过学习多数类的细粒度表示并为每个样本专门学习一个余弦分类器,使得分类模型高度适应个体的特征。SFPL首先构建多个原型来表示多数类,然后通过混合加权策略更新原型。此外,我们提出了一种基于集合表示的均匀损失,以使细粒度原型均匀分布。
2025-04-29 09:30:00
3
原创 TPAMI 2024 | 基于高斯过程回归的保证覆盖预测区间
结合高斯过程回归(GPR)与保形预测(CP):本文提出了一种基于保形预测(Conformal Prediction, CP)的高斯过程回归(GPR)扩展方法,即使在模型完全错误指定的情况下,也能保证生成具有所需覆盖率的预测区间(PIs)。这一方法结合了GPR的优势和CP的有效覆盖率保证。归一化非一致性度量:本文引入了归一化非一致性度量,通过考虑每个实例对基础技术的难度,生成更精确的PIs。这种度量方法基于GPR生成的预测方差,能够根据输入的难度调整PIs的宽度,从而在保证覆盖率的同时提高预测的精度。转导式G
2025-04-28 09:30:00
18
原创 TPAMI 2025 | 通过旋转拉普拉斯分布实现 SO (3) 上的稳健概率建模
从单张RGB图像估计3自由度旋转是一个重要但具有挑战性的问题。作为一种流行的方法,概率旋转建模与单预测旋转回归相比,还能携带预测不确定性信息。在对SO(3)上的概率分布进行建模时,使用类似高斯分布的宾汉分布(Bingham distribution)和矩阵费希尔分布(matrix Fisher)是很自然的选择,但它们对异常预测(如180°误差)很敏感,因此不太可能以最优性能收敛。在本文中,作者从多元拉普拉斯分布中获得灵感,提出了一种新的SO(3)上的旋转拉普拉斯分布。
2025-04-28 09:30:00
98
原创 TVT 2024 | HCLT-YOLO:一种用于复杂交通场景目标检测的卷积神经网络与轻量级 Transformer 混合架构
在交通场景中快速准确地检测交通标志是自动驾驶系统环境感知技术的关键环节。交通标志提供重要的道路信息和规则指令,对保障道路安全至关重要。本文提出HCLT-YOLO模型,以应对复杂交通环境中误报和漏检的挑战。具体而言,作者提出了一种新颖的卷积神经网络(CNN)与Transformer混合网络架构,能有效整合局部和全局特征,从而提升交通标志特征表示能力。为进一步增强模型对小交通标志的敏感度,作者通过上采样引入专门的小目标检测层来优化结构,并利用SIoU提升检测精度和计算效率。
2025-04-28 09:30:00
25
原创 CVPR 2025 | 解决广义类别发现中的灾难性遗忘问题
广义类别发现(Generalized Category Discovery, GCD)旨在识别未标记数据集中已知类别和新类别,为图像识别提供了更符合现实的场景。本质上,GCD需要彻底记住已有模式,才能识别新类别。近期最先进的方法SimGCD通过无偏学习,将已知类数据的知识转移到新类别的学习中。然而,在适应过程中,一些模式会被灾难性遗忘,从而导致新类别分类性能不佳。
2025-04-28 09:30:00
125
原创 医图论文 MIA 2025 | CLMS:利用无源持续学习弥合医学影像分割中的领域差距以实现稳健的知识迁移和适应
深度学习在医学图像分割领域展现出了巨大的潜力,但由于不同医疗机构之间的数据存在差异,当应用于不同的医疗场所时,其性能会有所下降。将深度学习模型应用于新的临床环境具有挑战性,尤其是当由于隐私限制而无法获取用于训练的原始源数据时。无源领域适应(SFDA)旨在使模型适应新的未标记目标领域,而无需访问原始源数据。然而,现有的SFDA方法面临着诸如误差传播、视觉和结构特征不对齐以及无法保留源知识等挑战。
2025-04-28 09:30:00
227
原创 医图论文MICCAI 2023 | 基于深度学习的医学图像分析中模拟和评估偏差的灵活框架
尽管深度学习在医学图像分析领域取得了显著进展,但显然,用于训练此类模型的数据集偏差给临床应用带来了相当大的挑战,包括公平性和领域泛化问题。尽管缓解偏差技术的开发已十分普遍,但现实世界医学图像数据中固有的未知偏差,使得在开发深度学习模型和偏差缓解方法时,难以全面理解算法偏差。为应对这一挑战,作者提出了一个模块化、可定制的框架,用于在合成但逼真的医学影像数据中模拟偏差。该框架为模拟一系列可能导致模型性能不佳和捷径学习的偏差场景提供了完全的控制和灵活性。
2025-04-28 09:30:00
15
原创 Arxiv 2024 | 用于单图像去雨的自适应频率增强网络
图像去雨旨在提高在雨天条件下受损图像的可见性,目标是去除诸如雨线、雨滴和雨积累等退化元素。尽管许多单图像去雨方法在空间域中的图像增强方面显示出有希望的结果,但现实世界中的雨退化通常会导致图像整个频谱的不均匀损坏,这对这些方法在不同频率分量上的增强提出了挑战。本文提出了一种新颖的端到端自适应频率增强网络(AFENet),专门用于单图像去雨,能够自适应地增强不同频率的图像。
2025-04-27 09:30:00
35
原创 AAAI 2025 | 用于离线元强化学习的熵正则化任务表示学习
离线元强化学习旨在通过在一组不同任务的数据上进行训练,使智能体具备快速适应新任务的能力。基于上下文的方法利用状态 - 动作 - 奖励转换的历史(称为上下文)来推断当前任务的表示,然后根据任务表示对智能体(即策略和价值函数)进行条件设定。直观地说,任务表示对潜在任务的捕捉越好,智能体对新任务的泛化能力就越强。不幸的是,基于上下文的方法存在分布不匹配的问题,因为离线数据中的上下文与测试时的上下文不匹配,这限制了它们对测试任务的泛化能力,导致任务表示过度拟合离线训练数据。
2025-04-27 09:30:00
24
原创 TPAMI 2024 | 在线学习在可分离随机逼近框架下的应用
提出了一种在线学习算法,专门针对一类在可分离随机逼近框架下的机器学习模型。该方法的核心理念是充分利用许多模型中的固有可分离性,认识到某些参数比其他参数更容易优化。重点研究那些部分参数具有线性特性的模型,这在机器学习应用中非常常见。在提出的算法中,线性参数使用递归最小二乘法(RLS)进行更新,类似于随机牛顿法。随后,基于这些更新后的线性参数,非线性参数使用**随机梯度下降法(SGD)**进行调整。这种双重更新机制可以被视为块坐标梯度下降的随机逼近变体,其中一部分参数使用二阶方法优化,而另一部分则使用一阶方法处
2025-04-27 09:30:00
19
原创 TPAMI 2025 | 基于数据驱动的事件相机特征跟踪:有帧与无帧情况
事件相机具有高时间分辨率、对运动模糊的高抗性以及非常稀疏的输出,这使得它在低延迟和低带宽的特征跟踪任务中表现出色,即使在具有挑战性的场景中也是如此。现有的事件相机特征跟踪方法,要么是手工设计的,要么是从第一性原理推导出来的,但这些方法需要大量的参数调整,对噪声敏感,并且由于未建模的影响,无法推广到不同的场景。为了解决这些不足,作者提出了首个基于数据驱动的事件相机特征跟踪器,该跟踪器利用低延迟事件来跟踪在强度帧中检测到的特征。作者通过一种新颖的帧注意力模块实现了强大的性能,该模块在特征轨迹之间共享信息。
2025-04-27 09:30:00
29
原创 医图论文 MIA 2025 | 用于部分监督多器官医学图像分割的标注到未标注分布对齐方法
提出全新框架:论文提出标注到未标注分布对齐(LTUDA)框架,该框架基于两个关键见解,即利用未标注像素进行数据增强和使用紧凑表示学习准确决策边界,以此解决部分监督医学图像分割中标签与未标注像素之间的分布不匹配问题,进而生成无偏伪标签。设计数据增强策略:引入跨集数据增强策略,通过在标注和未标注像素之间进行区域级混合,生成新的强扰动样本,其标签结合了标注像素的真实标签和未标注像素的伪标签。该策略不仅丰富了训练样本的多样性,还能缓解因标注像素有限导致的过拟合问题,使标注像素的分布更接近未标注像素。开发分布对齐方法
2025-04-27 09:30:00
22
原创 医图论文MICCAI 2023 | 基于自适应解剖对比度改进半监督医学图像分割
医学数据通常呈现长尾分布,存在严重的类别不平衡问题,这自然导致对少数类别(即边界区域或罕见对象)的分类困难。近期的工作通过引入无监督对比准则,显著提升了长尾场景下的半监督医学图像分割效果。然而,在类别分布同样高度不平衡的有标签数据部分,这些方法的表现如何仍不明确。在这项工作中,作者提出了 ACTION++,这是一个用于半监督医学分割的改进对比学习框架,采用了自适应解剖对比。
2025-04-27 09:30:00
17
原创 TIM 2025 | 用于图像超分辨率的视觉状态空间模型
近年来,Transformer和卷积神经网络(CNN)在低层视觉任务中,尤其是图像超分辨率(SR)领域,受到了广泛关注。然而,CNN受限于其局部特征提取能力,而Transformer则因注意力计算的二次复杂度而面临挑战。为了有效解决这些问题,作者提出了一种密集残差连接的Mamba模型(DRCM)用于SR。DRCM通过利用全局感受野和动态加权机制,克服了CNN的局限性,并提供了类似于Transformer的高级建模能力。
2025-04-26 09:30:00
23
原创 医图论文 Arxiv‘25 | 基于像素依赖噪声标签的不平衡医学图像分割
准确的医学图像分割通常受到训练数据中噪声标签的阻碍,这是由于医学图像标注的挑战性。现有的处理噪声标签的研究往往基于类别依赖的假设,忽略了大多数噪声标签的像素依赖性。此外,现有方法通常使用固定阈值来过滤噪声标签,这可能会导致少数类别的样本被移除,从而降低分割性能。为了弥补这些不足,作者提出了一个名为“协作学习与课程选择”(CLCS)的框架,用于处理像素依赖的噪声标签和类别不平衡问题。CLCS通过以下方式推进了现有工作:i) 将噪声标签视为像素依赖的,并通过协作学习框架进行处理;
2025-04-26 09:30:00
24
原创 TPAMI 2024 | FSD V2: 通过虚拟体素改进全稀疏3D目标检测
基于LiDAR的全稀疏架构在3D目标检测中获得了越来越多的关注。FSDv1作为代表性工作,尽管结构复杂且包含手工设计,但在效率和效果上表现出色。本文提出了FSDv2,旨在简化FSDv1并消除其手工设计的实例级表示中的临时启发式方法,从而提升其通用性。为此,我们引入了虚拟体素,取代了FSDv1中基于聚类的实例分割。虚拟体素不仅解决了全稀疏检测器中中心特征缺失的问题,还为框架提供了一种更优雅和简洁的方法。此外,我们开发了一套组件来补充虚拟体素机制,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。
2025-04-26 09:30:00
25
原创 TPAMI 2024 | PhenoBench:农业领域语义图像解释的大规模数据集和基准测试
食品、饲料、纤维和燃料的生产是农业的关键任务,未来几十年面临着诸多挑战,例如需求增加、气候变化、劳动力短缺以及可耕地减少。视觉系统可以通过提供更好的可持续田间管理决策以及支持新作物品种的培育来应对这些挑战。近年来,农业机器人在视觉和机器人社区中受到越来越多的关注,因为它为解决劳动力短缺问题和实现更可持续的生产提供了可能。尽管其他领域已经有许多大规模数据集和基准测试,推动了显著的进展,但农业领域的数据集和基准测试相对较少。本文介绍了一个用于真实农田语义解释的注释数据集和基准测试。
2025-04-26 09:30:00
14
原创 TRGS 2024 | 用于部分方位角合成孔径雷达非合作目标识别的对比特征解缠方法
深度学习算法在合成孔径雷达(SAR)自动目标识别(ATR)任务中取得了最先进的进展。理论上,它们假设训练样本和测试样本是独立同分布的,以实现泛化,但这在实际的ATR场景中很难实现。在本文中,作者提出了一种新颖的对比特征解缠框架ConFeDent,旨在在分布一致性较弱的条件下学习具有更好泛化性能的特征。具体来说,ConFeDent旨在描述任意两个SAR训练样本之间的语义交互,而不是将它们独立对待。它可以通过半参数几何变换模型和二阶能量模型,从整个样本中隐式地解缠编码姿态和身份信息的特征。特别地,除了身份标签,
2025-04-26 09:30:00
14
原创 医图论文 MIA 2025 | 用于体积医学图像分割的跨视图差异依赖网络
有限的数据对基于深度学习的容积医学图像分割构成了关键挑战,许多方法试图通过子容积(即多视图切片)来表示容积,以缓解这一问题。然而,这类方法通常会牺牲切片间的空间连续性。目前,一个有前景的途径是将多视图信息融入网络,以增强容积表示学习,但大多数现有研究往往忽视了不同视图之间的差异和依赖关系,最终限制了多视图表示的潜力。为此,作者提出了一种跨视图差异 - 依赖网络(CvDd - Net)用于容积医学图像分割,该网络利用多视图切片先验来辅助容积表示学习,并探索视图差异和视图依赖关系以提高性能。具体而言,作者开发了
2025-04-26 09:30:00
8
原创 Arxiv 2024 | 解决域差异问题:一种双分支协作的无监督去雾模型
尽管合成数据可以缓解图像去雾任务中的数据获取难题,但在处理小规模数据时,它也引入了域偏差问题。本文提出了一种新颖的双分支协作无配对去雾模型(DCM-dehaze)来解决这一问题。该方法包括两个协作分支:去雾分支和轮廓约束分支。具体来说,作者设计了一个双深度可分离卷积模块(DDSCM),以增强深层特征的信息表达能力及其与浅层特征的相关性。此外,作者构建了一个双向轮廓函数来优化图像的边缘特征,以增强图像细节的清晰度和保真度。
2025-04-25 09:30:00
40
原创 TIM 2025 | 用于低剂量CT去噪的自监督解耦卷积神经网络
低剂量计算机断层扫描(LDCT)减少了辐射暴露,但存在高噪声问题,影响图像质量和诊断准确性。尽管监督学习有助于解决这一问题,但其需要大量的LDCT和正常剂量CT(NDCT)图像配对数据集,这限制了其临床应用。本文提出了一种新颖的自监督解耦卷积神经网络(SDCNN),能够直接从LDCT数据中重建高质量CT图像,而无需干净的参考图像。与其他将噪声视为单一实体的方法不同,SDCNN将LDCT图像解耦为无噪声图像、信号相关噪声和信号无关噪声,符合低剂量噪声生成的内在原理。为了增强解耦的纯度,作者引入了组合和再解耦的
2025-04-25 09:30:00
157
原创 TPAMI 2024 | 通过多维高斯化估计信息理论度量
信息理论是衡量数据和系统中不确定性、依赖性和相关性的杰出框架。它具有几个在实际应用中非常理想的特性:自然地处理多变量数据,能够处理异构数据,并且度量结果可以解释。然而,由于维度灾难,从多维数据中获取信息是一个具有挑战性的问题,因此信息理论尚未被更广泛的受众采用。我们提出了一种基于多元迭代高斯化变换的间接估计信息的方法。该方法具有多元到单变量的特性:它将多元度量的挑战性估计简化为在高斯化每次迭代中应用的边际操作的组合。
2025-04-25 09:30:00
18
原创 TPAMI 2025 | 理解布局并翻译文本:统一特征传导的端到端文档图像翻译
文档图像翻译(DIT)旨在将文档图像中的文本从一种语言翻译成另一种语言,这是一个涉及文本和布局协同的多模态任务。当前的方法要么将布局处理和翻译作为单独的过程,存在累积误差的风险;要么使用普通的端到端编码器 - 解码器模型来隐式捕获布局信息,但往往无法充分融合布局信息。作者认为,一个理想的框架应该明确引入针对布局的特定模块,并合理组织这些模块以服务于翻译任务。为此,作者首先重新审视了两种关键布局:反映单词空间位置的几何布局和描述单词逻辑顺序的逻辑布局。
2025-04-25 09:30:00
16
原创 医图论文 MIA 2025 | 用于半监督医学图像分割的双结构感知图像滤波方法
半监督图像分割近来备受关注,关键在于如何在训练过程中利用未标注图像。大多数方法通过在图像和/或模型层面引入变化(如添加噪声/扰动,或创建替代版本),使模型对未标注图像的预测保持一致。在大多数图像层面的变化中,医学图像往往具有先验结构信息,但这一点尚未得到充分挖掘。在本文中,作者提出了一种新颖的双结构感知图像滤波(DSAIF)方法,作为半监督医学图像分割的图像层面变化策略。受基于结构感知树的图像表示进行连通滤波以简化图像的启发,作者采用了双对比度不变的最大树和最小树表示。
2025-04-25 09:30:00
13
原创 医图论文MICCAI 2023 | 通过3D和2D网络之间的交叉教学进行稀疏标注的3D医学图像分割
医学图像分割通常需要一个大规模且标注精确的数据集。然而,获取逐像素的标注是一项劳动密集型任务,需要领域专家付出巨大努力,这使得在实际临床场景中获取这样的标注变得具有挑战性。在这种情况下,减少所需的标注量是一种更实际的方法。一种可行的方向是稀疏标注,即只标注少数切片,与传统的弱标注方法(如边界框和涂鸦)相比,它具有几个优势,因为它保留了精确的边界。然而,由于监督信号稀缺,从稀疏标注中学习是具有挑战性的。
2025-04-25 09:30:00
18
转载 只需6G显存,就能本地跑的AI视频算法,开源了!
FramePack 的出现非常重要,不仅是对技术本身的突破,而是在大幅度降低本地 AI 视频创作硬件需求的情况下,让 AI 视频生成技术变得更加更加容易上手玩,让更多人可以享受到 AI 视频创作的乐趣。而现在,使用新发布的 FramePack,只需要一个带有 6GB GPU 内存的 RTX 3060 笔记本,就可以在本地流畅地生成。实验发现第三种采样方法可以将用户的输入视为高质量的第一帧,并不断优化生成以接近用户帧,从而可以获得整体高质量的视频。你也能在看到下一部分的预览以及各个部分的进度条。
2025-04-24 19:01:50
255
转载 知乎热议 | 前几周Deepseek都是神一般的存在,为啥热度消散得这么快?
从行业角度看,全球大模型竞争白热化,DeepSeek的核心技术已被竞品追赶;从用户体验看,人们最终意识到AI无法替代人类原创性工作。典型案例如用户尝试用DeepSeek开发网球积分网站时,虽快速生成雏形却难修复关键bug,最终仍需Claude模型与人工调试协作完成。DeepSeek热度变化揭示了大模型发展的普遍规律:新技术往往经历爆发期、冷静期和平稳期三阶段。作为国内首个突破性AI产品,其早期被过度神化为"民族软件",引发全民尝鲜潮,但实际应用暴露明显局限性:科研场景存在虚构文献、解释笼统等问题;
2025-04-24 19:01:50
19
原创 AAAI 2024 | 结构化剪枝通过空间感知信息冗余进行语义分割
近年来,语义分割在各种应用中蓬勃发展。然而,高计算成本仍然是阻碍其进一步应用的主要挑战。滤波器剪枝方法为结构化网络瘦身提供了一种直接且有效的解决方案,用于减少分割网络的计算成本。然而,作者认为大多数现有的剪枝方法最初是为图像分类设计的,忽略了分割是一个位置敏感任务的事实,这导致它们在应用于分割网络时性能不佳。
2025-04-24 09:30:00
20
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人