自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(152)
  • 收藏
  • 关注

原创 REMOTE SENSING-ORIENTED WORLD MODEL

世界模型通过预测和推理直接观测之外的世界状态,在人工智能领域展现出巨大潜力。然而,现有方法主要在合成环境或受限场景设置中进行评估,限制了其在具有广域空间覆盖和复杂语义的真实世界场景中的验证。与此同时,灾害响应和城市规划等遥感应用迫切需要具备空间推理能力的方法。本文通过提出首个面向遥感领域的世界建模框架,弥合了上述差距。我们将遥感世界建模形式化为方向条件下的空间外推任务,即模型在给定中心观测图像块和方向指令的条件下,生成语义一致的相邻图像块。为实现严格评估,我们构建了 RSWISE(Remote Sensin

2026-05-14 10:28:45 16

原创 V-JEPA 2: Self-Supervised Video Models EnableUnderstanding, Prediction and Planning

现代人工智能面临的一项重大挑战,是如何主要通过观察来学习理解世界并学会行动(LeCun,2022)。本文探索了一种自监督方法,将互联网规模的视频数据与少量交互数据(机器人轨迹)相结合,以开发能够在物理世界中进行理解、预测和规划的模型。我们首先在一个包含超过100万小时互联网视频的视频与图像数据集上,预训练了一个不依赖动作信息的联合嵌入预测架构 V-JEPA 2。V-JEPA 2 在运动理解任务上表现优异,在 Something-Something v2 数据集上取得了 77.3% 的 top-1 准确率;

2026-05-11 19:37:05 424

原创 一下就看懂:git上传代码到GitHub仓库

GitHub 对分支的基本定位很明确:分支可以让你在不影响默认分支的前提下开发新功能或修复问题;则会生成一次本地提交。GitHub 的 Pull Request 和代码审查,本质上就是围绕这些 commit 展开的。6、还有一个问题就是在提交的时候可能会让输入账户名和密码,账户名就是你github上的名字,但是密码是生成的token,如果你下载的是私有仓库,只要你有权限并完成认证,也一样可以 clone。这个属于 Git 分支与远程分支的标准绑定流程。3、在多人协作项目里,最稳妥的方式不是直接在默认分支。

2026-05-11 09:36:19 26

原创 Real-time Multi-person Eyeblink Detection in the Wild for Untrimmed Video

实时野外眨眼检测在疲劳检测、人脸活体检测、情绪分析等领域具有广泛应用价值。现有研究通常主要关注下的,而对于实际应用中同样重要的和,尚未得到充分关注。为了解决这一问题,我们首次从三个方面对这一研究方向进行了系统探索。具体来说,我们提出了一个大规模数据集,其中包含和,覆盖。这些样本均采集自非受控电影片段,以体现真实“野外场景(in the wild)”的特点。与此同时,我们还提出了一种。与现有方法不同,我们的方法采用,具备。具体而言,该方法能够这三个子任务。

2026-04-20 19:47:58 396

原创 LeWorldModel: Stable End-to-End Joint-EmbeddingPredictive Architecture from Pixels

联合嵌入预测架构 (JEPA) 为在紧凑的潜在空间中学习世界模型提供了一个引人注目的框架,但现有方法仍然脆弱,依赖于复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征崩溃。本文提出了 LeWorldModel (LeWM),这是第一个与目前唯一的端到端替代方案相比,LeWM 将可调损失超参数从六个减少到一个。LeWM 可以在单个 GPU 上训练 1500 万个参数,只需几个小时即可完成训练,其规划速度比基于基础模型的世界模型快 48 倍,并且在各种 2D 和 3D 控制任务中保持竞争力。

2026-04-20 09:42:13 401

原创 Wavelet Meets Adam: Compressing Gradients forMemory-Efficient Training

大型语言模型(LLMs)在多种自然语言处理任务中展现出了卓越的性能。然而,其庞大的参数规模在训练过程中带来了显著的内存挑战,。现。尽管这些方法有助于缓解内存限制,但与全秩更新相比,它们通常会产生次优的结果。在本文中,我们探索了超越低秩训练的内存高效方法,提出了一种名为。该方法通过将小波变换应用于梯度,显著降低了维护优化器状态所需的内存需求。我们证明了GWT能够与高内存消耗的优化器无缝集成,从而在不牺牲性能的前提下实现高效训练。

2026-03-24 20:12:42 390

原创 PUSHING TRADE-OFF BOUNDARIES: COMPACT YET EFFECTIVEREMOTE SENSING CHANGE DETECTION

遥感变化检测对于监测城市扩张、灾害评估和资源管理至关重要,能够及时、准确且大尺度地揭示地表景观的动态变化。尽管深度学习推动了变化检测领域的变革,但现代模型日益复杂的架构和计算需求并未带来相应的显著精度提升。本研究未追随这一趋势,而是探索一种更高效的方案,聚焦于在保持高精度的同时最小化资源消耗的轻量化模型——这是星载处理的必要前提。为此,我们提出FLICKCD(意为“快速轻扫即获卓越结果”),旨在突破性能-资源权衡的边界。

2026-03-24 16:27:50 392

原创 Towards Generalizable Scene Change Detection

尽管当前最先进的场景变化检测(SCD)方法在训练充分的研究数据上取得了显著成果,但在未见环境和不同时间条件下却变得不可靠——域内性能在先前未见环境中从77.6%降至8.0%,在不同时间条件下则降至4.6%——这迫切呼唤具有泛化能力的SCD方法及其基准。为此,我们提出泛化场景变化检测框架(GeSCF),旨在解决未知域性能与时间一致性问题,以满足日益增长的任意场景变化检测需求。该方法以零样本方式利用预训练的Segment Anything Model(SAM)。

2026-03-23 19:54:48 404

原创 Adaptive deep physics-informed neural network with dual-nestedactivation for solving complex partia

物理信息神经网络(PINNs)在求解偏微分方程方面具有潜力,但在实现高精度方面常常面临挑战,尤其是在复杂的真实世界场景中。所提出的 ad-PINN 引入了两项主要创新:(1)一种具有双嵌套机制的自适应激活函数,称为双曲正切对偶函数(dual-tanh),该函数能够动态调整其斜率和形状,以优化超越传统激活函数的学习能力;(2)一种自适应 Huber 损失函数,该函数能够自动调整其参数,无需手动调参。激活函数与损失函数的这种双重自适应性提升了模型的灵活性和性能。

2026-03-22 16:28:39 339

原创 PrimKD: Primary Modality Guided Multimodal Fusion for RGB-DSemantic Segmentation

近年来,跨模态 Transformer 在 RGB-D 语义分割任务中取得了显著进展,能够有效融合 RGB 与深度两种模态的信息。然而,现有方法往往忽略了不同模态所包含信息量的差异,对两种模态一视同仁,并采用相同架构的模型进行处理。这种做法可能会限制分割性能,尤其考虑到 RGB 图像通常比深度图像包含更丰富的信息。为了解决这一问题,我们提出了,一种基于知识蒸馏的引导式多模态融合方法,重点突出主导模态 RGB 的作用。

2026-03-20 08:29:03 411

原创 CPAL: Cross-Prompting Adapter With LoRAs forRGB+X Semantic Segmentation

随着传感器技术的发展,RGB+X 系统将传统 RGB 相机与另一种辅助传感器相结合,从而增强感知能力,并为语义分割等重要任务提供更丰富的信息。然而,由于需要特定的采集设备,获取大规模 RGB+X 数据较为困难。因此,传统的 RGB+X 分割方法通常会利用相对丰富的 RGB 数据进行预训练。然而,这些方法缺乏能够充分挖掘预训练模型潜力的相应机制,而且预训练所用 RGB 数据集的规模本身也仍然有限。近年来,一些工作采用提示学习(prompt learning)来挖掘预训练基础模型的潜力,但这些方法采用的是一种。

2026-03-16 15:26:40 409

原创 Keep the Balance: A Parameter-Efficient Symmetrical Frameworkfor RGB+X Semantic Segmentation

多模态语义分割是计算机视觉中的一个关键挑战。早期方法由于需要对基于 RGB 的预训练参数进行全量微调,存在计算成本高、迁移能力有限的问题。近年来的研究虽然将额外模态作为 RGB 的补充提示来利用,但整体上仍然以 RGB 为主导,这限制了其他模态潜力的充分发挥。为了解决这些问题,我们提出了一种新颖的,用于多模态分割。该框架包含一种,能够同时将强大的预训练模型能力适配到 RGB 模态和 X 模态上。此外,现有方法在模态融合时通常利用注意力机制建模全局跨模态相关性,但这种方式会不可避免地在不同模态之间引入噪声。

2026-03-12 17:08:08 416

原创 Emotion-LLaMA: Multimodal Emotion Recognitionand Reasoning with Instruction Tuning

准确的情绪感知对于多种应用都至关重要,包括人机交互、教育和咨询等。然而,传统的单模态方法往往难以捕捉现实世界中情绪表达的复杂性,因为真实情绪表达本质上是多模态的。此外,现有的多模态大语言模型(MLLMs)在融合音频信息以及识别细微面部微表情方面仍面临挑战。为了解决这些问题,我们提出了,其中包含和,覆盖多种不同的情绪类别。该数据集使模型能够从多样化场景中学习,并具备更强的真实场景泛化能力。进一步地,我们提出了模型。该模型通过情绪特定编码器对音频、视觉和文本输入进行无缝融合。

2026-03-10 11:22:29 407

原创 CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

模态间差异(modality gap)显著限制了多模态融合的效果。以往方法通常采用扩散模型(diffusion models)和对抗学习(adversarial learning)等技术来缩小模态差异,但这些方法通常只关注,而没有让源模态的数据点接触到目标模态的。为此,本文利用。具体而言,我们利用整流流中的**“一对多映射(one-to-many mapping)”策略**,使源模态中的每个数据点都能够观察到目标模态的整体分布。

2026-03-06 15:05:30 414 2

原创 Photovoltaics Plant Fault Detection Using DeepLearning Techniques

太阳能是增长最快的清洁可持续能源,其发展速度远超其他发电形式。通常情况下,太阳能电池板维护成本低,无需长期持续检修。但一旦电池板出现故障,会影响整个光伏阵列的发电效率,导致发电量损失高达20%。对光伏电站进行高质量、及时的维护,既能降低维修成本,更能延长电站使用寿命、提升总发电量。在大型光伏电站中,人工巡检电池板成本高、耗时长,且地处偏远的光伏电站更难以人工抵达。本文提出一种基于深度学习的光伏故障检测方法,利用搭载红外传感器的无人机采集热红外图像进行故障诊断。

2026-03-02 15:41:15 560

原创 Enhancing photovoltaic module fault diagnosis: Leveraging unmanned aerial vehicles and autoencoders

光伏组件在可再生能源系统中起着关键作用,因此其故障诊断对于确保持续的能源生产至关重要。本研究提出了一种结合深度神经网络和机器学习的新型光伏组件综合故障诊断方法。具体而言,本文提出了一种融合自编码器(一种深度神经网络架构)和支持向量机(SVM,一种机器学习算法)的方法。为生成高质量的训练图像数据集,研究采用搭载 RGB 相机的无人机(UAV)拍摄光伏组件的详细图像。研究中考虑的组件状态包括烧痕、蜗牛纹、变色、分层、玻璃破裂和正常面板。

2026-03-02 14:51:45 772

原创 Automatic detection, classification and localization of defects in large photovoltaic plants using

这项研究旨在构建一个光伏(PV)电站运维系统,利用搭载热成像仪的无人机(UAV)进行图像采集。在该系统中,红外(IR)图像用于检测光伏组件的热缺陷,而RGB图像用于检测组件表面缺陷。两类图像相互结合,以交叉验证组件缺陷的原因。在第一部分中,建立了光伏电站信息模式,并以台湾的一座光伏电站(1,482块光伏组件,410 kW)为例。通过使用尺度不变特征变换(SIFT)检测光伏系统图像特征点,以解决图像亮度、旋转和缩放等特征变化问题。对多个本地电站图像中的相同特征点进行匹配。

2026-03-02 11:09:58 716

原创 Fault detection in photovoltaic systems using unmanned aerialvehicle-captured images and rough set

随着光伏(PV)系统作为可持续能源的广泛应用,其运行性能因各类故障导致的性能退化问题日益突出,因此亟需高效的故障检测方法。本文提出了一种基于人工智能的光伏组件自动检测方法,利用无人机(UAV)采集的图像实现自动化巡检。研究中采用了多种先进的特征提取技术对图像数据进行分析,包括纹理分析、快速傅里叶变换(FFT)、灰度共生矩阵(GLCM)、灰度差分方法(GLDM)以及离散小波变换(DWT)。同时构建了基于粗糙集理论的规则分类器,并进行优化,当与DWT特征结合时实现了100%的分类准确率。

2026-03-02 09:55:38 766

原创 Unleashing the Potential of Multimodal LLMs forZero-Shot Spatio-Temporal Video Grounding

时空视频指代定位(Spatio-temporal Video Grounding, STVG)旨在根据输入的文本查询,在视频中定位对应目标的时空管道(spatio-temporal tube)。本文利用多模态大语言模型(MLLMs)探索了一种用于 STVG 的零样本解决方案。我们揭示了 MLLMs 在 STVG 任务中的两个关键现象:(1)MLLMs 倾向于动态分配特殊的标记(tokens),称为,用于对文本查询进行定位;

2026-02-24 09:25:43 734

原创 Generative Modeling via Drifting

相比之下,我们的工作提出了一种**概念上不同的新范式**,且不依赖于扩散/流模型所基于的SDE/ODE形式化框架。然而,我们的方法侧重于一个**漂移场**,该场显式地在训练时控制样本的漂移。该模型的核心特点是学习一个在**训练期间**动态演化的推前映射,从而避免了迭代式推理过程的需求。“推前”行为可以在推理阶段以迭代方式实现,例如在扩散模型(Sohl-Dickstein 等人,2015)和流匹配(Lipman 等人,2022)等主流范式中。为驱动训练时推前分布的演化,我们引入了一个漂移场来控制样本的运动。

2026-02-07 22:11:09 867

原创 Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

但它们提出的模块(如 Bridger,Xu et al., 2023;一些开创性工作(如 ETRIS 和 BarleRIa,Wang et al., 2023)尝试以参数高效的方式微调 CLIP(Radford et al., 2021)以用于指代表达图像分割,但仍面临若干局限:(i)这些方法主要依赖于在骨干网络早期阶段进行多模态特征融合,未能充分利用更全面的全局特征,从而导致性能不够理想。Zhuang et al., 2025),展现出对真实世界应用至关重要的鲁棒性(He et al., 2024b)。

2026-01-14 09:50:17 644

原创 Hierarchical Feature Alignment-based Progressive Addition Network for Multimodal Change Detection

多模态变化检测(Multimodal Change Detection,MCD)近年来已成为研究热点,受到广泛关注。不同于同模态变化检测,MCD 需要通过比较**不同模态的双时相影像(Bi-Temporal Images, BTIs)大尺度、图像级(image-level)**的 MCD 研究仍然较为有限。。为了解决这一问题,本文提出了一种新颖的,用于多模态变化检测。在所提出的 HFA-PANet 中,设计了两个关键模块,用以增强多模态双时相影像的差异特征表达能力,从而提升变化提取性能。

2026-01-03 16:59:23 590

原创 Refined change detection in heterogeneous low-resolution remote sensing images for disaster emergenc

异构遥感影像变化检测(Heterogeneous Remote Sensing Images Change Detection,HRSICD)是遥感影像处理领域中的一项重要挑战,在快速自然灾害响应等方面具有重要的应用价值。然而,不同成像模态之间往往存在显著差异,导致特征可比性较差,从而影响变化识别的准确性。为解决这一问题,本文提出了一种。首先,采用高效提取影像的多尺度细节特征;随后,引入,对异构影像的结构关系与语义特征进行对齐,增强异构影像特征之间的可比性;最后,通过。

2026-01-03 10:16:02 982

原创 Heterogeneous remote sensing image change detection network based on multi-scale feature modal trans

随着遥感(Remote Sensing,RS)对地观测技术的快速发展,利用多模态遥感数据对土地利用/土地覆被变化进行监测已成为可能。异构遥感影像变化检测(Heterogeneous Remote Sensing Image Change Detection,HRSI-CD)的核心挑战在于如何统一不同模态影像的特征空间,使其具备可比性。然而,现有大多数方法通常通过对双时相异构影像(Bi-Temporal Heterogeneous Images,BTHIs)分别进行特征提取,以获取共享特征。

2026-01-01 19:05:55 1059

原创 Overcoming the uncertainty challenges in detecting building changes from remote sensing images

利用超高分辨率多时相遥感(RS)影像进行建筑物变化检测,有助于深入理解城市化进程和人类活动,从而为城市规划、资源配置和基础设施建设提供科学决策依据。然而,现有的建筑物变化检测(Building Change Detection,BCD)方法通常忽视了遥感影像中存在的关键不确定性现象。这些不确定性主要来源于两个方面:首先,现有建筑物变化检测数据集的设计目标主要是检测建筑物变化,而其他地物类别的变化往往被统一标注为未变化的背景。

2025-12-31 14:58:32 1036

原创 EISNet: A Multi-Modal Fusion Network for Semantic Segmentation With Events and Images

通过检测像素级亮度变化,以稀疏且异步的“事件”形式记录场景信息。这类相机具备和等成像优势,在复杂场景理解任务中展现出巨大的应用潜力。鉴于事件相机与传统相机之间的互补性,本文提出了一种,以提升语义分割性能。该研究面临的关键挑战主要包括两个方面:(i)如何对事件数据进行有效编码,以准确表征场景信息;(ii)如何在考虑两种模态特性的前提下,实现多模态互补特征的高效融合。针对第一个挑战,本文提出了一种,通过场景活动建模,将事件数据转换为包含高置信度细节的帧式表示。针对第二个挑战,本文设计了。

2025-12-30 21:55:39 678

原创 Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

多模态语义分割能够显著提升人工智能代理在复杂场景下的感知与场景理解能力,尤其是在低照度或过曝等不利环境条件下。将热成像、深度等额外模态(X 模态)与传统 RGB 信息相结合,可以提供互补线索,从而实现更加稳健和可靠的预测。在本文中,我们提出了一种名为的多模态语义分割网络,该方法基于先进的架构,采用进行设计。不同于依赖卷积神经网络(CNN)的传统方法(其感受野受限于局部区域),或采用视觉 Transformer(ViT)的方法(虽然具备全局感受野,但计算复杂度为二次方),我们的方法在保持的同时,实现了。

2025-12-29 21:36:47 1098

原创 SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

生成用于分割的。

2025-12-29 10:57:35 605

原创 Masked-attention Mask Transformer for Universal Image Segmentation

我们提出了一种高效的损失计算策略:仅在。

2025-12-27 19:14:31 1222

原创 Squeeze-and-Excitation Networks

卷积神经网络建立在卷积运算之上,该运算通过在局部感受野内融合空间信息和通道信息来提取具有判别力的特征。为了提升网络的表征能力,近年来的多项研究表明,加强空间编码具有显著效果。本文则关注,并提出了一种新的网络结构单元,称为Squeeze-and-Excitation(SE)模块显式建模通道之间的相互依赖关系**,自适应地重新校准各通道的特征响应。我们进一步表明,通过堆叠多个 SE 模块,可以构建出,并且该架构在多个具有挑战性的数据集上展现出了极强的泛化能力。

2025-12-24 22:03:49 935

原创 Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

大型模型在多个应用领域代表了一项突破性的进展,使其在各类任务中取得了显著成就。然而,其前所未有的规模也带来了巨大的计算开销。这类模型通常包含数十亿级别的参数,在运行过程中需要消耗大量计算资源。尤其是模型规模的不断扩展及其高昂的计算需求,使得在计算能力受限的硬件平台上,将其定制化以适配特定下游任务面临着严峻挑战。参数高效微调(Parameter Efficient Fine-Tuning,PEFT)为这一问题提供了一种切实可行的解决方案。具体而言,。

2025-12-24 20:18:05 1001

原创 Convolutional Bypasses Are Better Vision Transformer Adapters

在计算机视觉领域,“预训练—再微调”(pretrain-then-finetune)范式被广泛采用。然而,随着 Vision Transformer(ViT)规模呈指数级增长,完整微调因巨大的存储开销而变得不可行。受到语言模型中参数高效迁移学习(PETL)的启发,近期研究尝试在预训练的 ViT 中插入轻量级的适配模块(如 adapter 层或 prompt token),并仅微调这些模块,同时冻结预训练权重。

2025-12-12 17:13:37 715

原创 DTL: Disentangled Transfer Learning for Visual Recognition

随着预训练模型规模迅速扩大,其在下游任务上的微调成本也不断上升。为经济地微调这些模型,提出了参数高效迁移学习(PETL),其仅调节极少量可训练参数,以高效学习优质表征。然而,当前的 PETL 方法面临这样一个困境:在训练过程中,GPU 显存占用并未像可训练参数数量那样得到有效减少;如果完整微调会出现显存不足的问题,PETL 方法也很可能会失败。出现这一现象的原因在于,这些方法中的可训练参数通常与主干网络(backbone)高度耦合,使得大量中间状态必须存储在 GPU 显存中以进行梯度反向传播。

2025-12-12 11:25:13 1060

原创 VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS

本文研究了一种简单而强大的 Vision Transformer(ViT)密集预测任务适配器。与近期那些把视觉专用归纳偏差硬编码进结构的先进变体不同,普通 ViT 因先验假设弱,在密集预测上表现不佳。为此,我们提出 ViT-Adapter,它让普通 ViT 无需改造自身架构,就能达到视觉专用 Transformer 的精度。具体而言,框架主干仍是普通 ViT,。

2025-12-10 21:19:06 980

原创 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks

预训练和微调能够提升视觉任务中的迁移效率与性能。近年来,delta-tuning 方法为视觉分类任务提供了更多选择。尽管已有视觉 delta-tuning 技术取得进展,但在挑战性任务上仍无法突破全量微调的上限。为寻找可替代全量微调的有力方案,我们提出多认知视觉适配器(Mona)微调——一种全新的适配器式调参方法。首先,其次,。

2025-12-10 17:08:17 1113

原创 conda新建虚拟环境A remote server error occurred when trying to retrieve this URL.A 500-type error (e.g.

【代码】conda新建虚拟环境A remote server error occurred when trying to retrieve this URL.A 500-type error (e.g.

2025-12-02 11:41:56 224

原创 PEAFusion: Parameter-efficient Adaptation for RGB-Thermal fusion-based semantic segmentation

RGB - 热成像(RGB-T)语义分割在自动驾驶研究领域备受关注。全微调预训练网络是 RGB-T 语义分割中常用的策略。然而,随着模型规模的扩大,更新所有参数的成本变得高昂且不切实际 —— 尽管预训练网络效果显著,但这一问题阻碍了其广泛应用。为高效将预训练单模态网络适配到多模态 RGB-T 任务中,我们设计了一种名为的模块。该多视角适配对通过在低维空间中逼近全微调过程中对隐藏状态的高维更新,弥合了预训练特征与 RGB-T 语义分割所需特征之间的鸿沟。

2025-12-02 10:28:55 837

原创 HSPFormer: Hierarchical Spatial Perception Transformer for Semantic Segmentation

在智能交通系统中,驾驶场景的语义感知起着至关重要的作用。然而,现有基于 Transformer 的语义分割方法往往未能充分挖掘其在动态理解驾驶场景方面的潜力。这些方法通常缺乏空间推理能力,无法有效关联图像像素与其空间位置信息,从而导致注意力漂移。为了解决这一问题,我们提出了一种全新的架构——,这是首个将与统一到一个框架中的方法。我们引入了。此外,我们设计了,从而构建具有空间相关性的语义表示并生成全局上下文信息。

2025-11-27 19:21:45 987

原创 DINOv3

本研究针对自监督学习向大规模前沿模型扩展的挑战提出了多项贡献。基于自动数据筛选技术的最新进展,我们构建了一个大型"背景"训练数据集,并将其与少量专业数据(ImageNet-1k)进行精细混合。该方法能够利用大量无约束数据来提升模型性能,这项关于(i)数据扩展的贡献将在第3.1节详述。通过定义ViT架构的自定义变体,我们将主要模型规模提升至70亿参数。该架构融合了现代位置嵌入技术(轴向RoPE),并开发了避免位置伪影的正则化方法。

2025-11-25 11:43:14 173

原创 多头注意力维度的计算

1、输入: [batch_size, height, width, channels] # [B, H, W, C]5.3Softmax归一化。5、注意力计算的核心流程。

2025-11-24 21:23:39 151

678_vrshq.zip

678_vrshq.zip

2025-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除