自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(353)
  • 资源 (13)
  • 收藏
  • 关注

原创 最新 CCF A 类人工智能会议论文下载汇总 (含2023)

2021年部分 CCF A 类会议论文下载地址汇总AAAI 2021 :https://dblp.uni-trier.de/db/conf/aaai/aaai2021.htmlICLR 2021 :https://openreview.net/group?id=ICLR.cc/2021/ConferenceCVPR 2021 :https://openaccess.thecvf.com/CVPR2021?day=allACL-IJCNLP 2021 :https://2021.aclweb.

2021-10-28 06:45:29 17038 1

原创 Mamba介绍,和Transformer对比

之后,又进一步提出了 Mamba-2,其中的结构化空间状态对偶(SSD/Structured Space-State Duality)构建了一个将结构化 SSM 与多种形式的注意力连接起来的稳健的理论框架,可将原本为 Transformer 开发的算法和系统优化技术迁移用于 SSM。表 1 分类总结了相关研究。然而,正如每枚硬币都有其两面,Transformer的注意力机制在赋予其卓越性能的同时,也带来了计算复杂度的显著上升,特别是当面对超长文本序列时,这种二次增长的计算需求成为了制约其应用的一大瓶颈。

2024-08-29 23:40:59 1026

原创 LoG-VMamba:局部-全局视觉Mamba医学图像分割

Mamba,作为一种状态空间模型(SSM),最近在自然语言处理和一般序列建模方面展示了与卷积神经网络(CNNs)和Transformer相媲美的竞争性能。人们已经进行了各种尝试,将Mamba适应于计算机视觉任务,包括医学图像分割(MIS)。基于Vision Mamba(VM)的网络因其能够像Vision Transformer一样实现全局感受野,同时保持标记数量上的线性复杂度,而显得尤为吸引人。然而,由于现有VM模型的顺序性质,它们在高维数组中仍难以同时保持标记的空间局部和全局依赖性。

2024-08-27 16:15:06 1092

原创 多模态大型语言模型的语义对齐 (浙大,新加坡国立大学,阿里巴巴)

通过在视觉标记提取过程中引入不同图像之间的双向语义引导,SAM旨在增强链接信息的保留,以便进行连贯分析,并在将图像输入LLM之前对齐不同图像的语义。然而,为每个图像独立提取视觉标记可能会导致在第一步中不同图像被赋予不同的语义优先级,从而在后续LLM分析中缺乏图像之间的链接信息的保留。不同交互层级的6个数据集上的平均分数。在部分A中,Q-former模块利用从部分B中的多模态指令的上下文图像(即当前感知图像以外的图像)生成的上下文语义ci,来指导从当前感知图像特征中提取视觉标记。

2024-08-26 15:23:35 1183

原创 MultiMed : 大规模多模式和多任务医学理解

生物医学数据本质上具有多模态性,包括电子健康记录、医学成像、数字病理学、基因组测序、可穿戴传感器等。将人工智能工具应用于这些多方面的传感技术,有可能彻底改变人类健康和疾病的预测、诊断和治疗。然而,目前生物医学人工智能的方法通常只针对一种或少数几种医学模态和任务进行训练和评估。这一局限性阻碍了开发能够利用多种异构生物医学传感器之间丰富互联信息的综合工具。为了应对这一挑战,本文推出了MultiMed,这是一个旨在评估和推动跨广泛医学模态和任务的大规模学习基准。

2024-08-26 14:53:09 1025

原创 O-Mamba : 用于水下图像增强的 O 形状态空间模型

此外,为了验证O-Mamba的泛化能力,本文还使用了参考基准EUVP,它包含515对测试样本,以及非参考基准U45和Challenge-60,它们分别包含45张和60张用于测试的水下图像。然而,这些方法通常依赖于Vmamba,它仅侧重于空间信息建模,并难以处理由于光波长差异衰减导致的水下图像跨颜色通道依赖性问题,从而限制了深度网络的有效利用。最近,Mamba的引入进一步提升了SSMs的能力,通过引入选择机制,Mamba能够有效地处理非常长的序列,同时利用并行扫描算法进行更快的并行计算,从而实现高效的训练。

2024-08-26 13:48:00 658

原创 用于遥感自监督学习的特征引导掩码自编码器

以掩码图像建模(如掩码自动编码器(MAE))为指导的自监督学习在遥感领域的视觉转换器预训练中引起了广泛关注。然而,MAE往往过于关注像素细节,从而限制了模型对语义理解的能力,尤其是在嘈杂的合成孔径雷达(SAR)图像中。本文探索了光谱和空间遥感图像特征作为改进的MAE重建目标。本文首先对重建各种图像特征进行了研究,这些特征的表现与原始像素相当或更好。基于这些观察,本文提出了特征引导掩码自动编码器(FG-MAE):对于多光谱图像,重建方向梯度直方图(HOG)和归一化差异指数(NDI)的组合;

2024-08-26 00:33:28 875

原创 ML-Mamba : 利用Mamba-2的高效多模态大型语言模型

多模态大型语言模型(MLLMs)因其多功能性而备受关注。然而,传统的Transformer架构由于其二次计算复杂度而产生了显著的开销。为了解决这个问题,本文引入了ML-Mamba,这是一个多模态语言模型,它利用最新且高效的Mamba-2模型进行推理。Mamba-2以其线性可扩展性和对长序列的快速处理能力而闻名。本文将基于Transformer的主干替换为预训练的Mamba-2模型,并探索将二维视觉选择性扫描机制集成到多模态学习中的方法,同时尝试各种视觉编码器和Mamba-2模型变体。

2024-08-25 23:12:42 801

原创 SPARK:面向大规模视觉语言模型的多视觉传感器感知与推理基准

多选题格式具有多个优势。然而,本文观察到,当前的LVLMs在处理来自多视觉传感器的图像时,似乎将它们视为处于同一RGB域内,而没有考虑多视觉传感器的物理特性。具体来说,本文自动生成了6248个视觉-语言测试样本,以研究多视觉感官感知和与物理传感器知识熟练度相关的推理,这些样本涵盖了6种类型的多视觉感官指令任务,分布在两种不同的问答格式中。中给出的交互示例可以看出,尽管LVLM可以针对相对简单的问题准确识别用于捕获图像的视觉传感器,但在处理与传感器相关、更复杂的问题时,它难以理解图像的实际目的或上下文。

2024-08-25 21:57:07 1164

原创 使大视觉语言模型成为好的短时学习器

本文观察到,LVLMs很难利用来自支持样本的信息,并且实现了次优的分类性能。与以往仅使用类别名称、生成单个全局图像文本描述或手动选择相关属性作为附加信息的研究不同,本文设计了一个使用LVLM的自适应属性描述生成框架,以为每个类别的图像生成高质量属性和全局描述。通过本文的自适应属性描述生成框架,对于元任务指令中的每个支持或查询图像,可以获得关于每个图像的k+1个属性描述,以辅助后续的模型推理过程。随机选择一个1到10之间的数字作为要从a到z中随机采样的字符数,并将这些采样的字符随机插入到类别名中的随机位置。

2024-08-25 19:05:42 800

原创 基于神经塑性的地球观测多模态基础模型 (慕尼黑工业大学, TUM)

基础模型的发展彻底改变了利用卫星观测数据解释地球表面的能力。传统模型相互孤立,专为特定传感器或数据类型(如光学、雷达和高光谱等,每种都具有独特特性)量身定制。这种专业化限制了进行全面分析的可能性,而全面分析本可以整合这些多样化数据源的优势。本文的方法引入了“动态全能”(Dynamic One-For-All,简称DOFA)模型,该模型利用脑科学中的神经可塑性概念,将各种数据模态自适应地整合到一个框架中。

2024-08-25 00:56:48 874

原创 多模态可变形图像配准的大型语言模型

多模态可变形图像配准(MDIR)的挑战在于不同模态图像之间特征的转换和对齐。生成模型(GMs)无法从源模态保留足够的信息到目标模态,而非生成模型(non-GMs)则难以跨这两种模态对齐特征。在本文中,本文提出了一种新颖的粗到细MDIR框架LLM-Morph,该框架适用于各种预训练的大型语言模型(LLMs),通过对齐来自不同模态医学图像的深度特征来解决这些问题。

2024-08-24 23:35:21 1081

原创 YOLOv1到YOLOv10 综述: 最快、最准确的实时目标检测系统

YOLOv1 to YOLOv10:The fastest and most accurate real-time object detection systems2408.09332 (arxiv.org)This is a comprehensive review of the YOLO series of systems. Different from previous literature surveys, this review article re-examines the cha

2024-08-24 21:30:43 1735

原创 超越炒作:冷静看待医学场景中的视觉语言模型

大型视觉语言模型(LVLMs)的最新进展在不同任务中展现了显著的能力,引起了AI领域的广泛关注。然而,它们在医学等专门领域中的性能和可靠性仍评估不足。特别是,大多数评估过度集中于基于多模态数据的简单视觉问答(VQA)来评估视觉语言模型(VLMs),而忽略了LVLMs的深入特性。在本研究中,本文介绍了RadVUQA,一种新颖的放射学视觉理解和问答基准,以全面评估现有的LVLMs。RadVUQA主要从五个维度验证LVLMs:1)解剖理解,评估模型视觉上识别生物结构的能力;

2024-08-24 20:23:17 1073

原创 5%>100%: 打破视觉识别任务的完全微调的性能束缚

预训练与微调可以提升视觉任务中的迁移效率和性能。最近的增量调节(delta-tuning)方法为视觉分类任务提供了更多选择。尽管这些方法取得了成功,但现有的视觉增量调节技术仍未能超越在如目标检测和分割等挑战性任务上全面微调的上限。为了找到全面微调的一个有竞争力的替代方案,本文提出了多认知视觉适配器(Mona)调节,这是一种新颖的基于适配器的调节方法。首先,本文在适配器中引入了多个视觉友好的滤波器,以增强其处理视觉信号的能力,而以前的方法主要依赖于语言友好的线性滤波器。其次,本文在。

2024-08-24 17:57:02 672

原创 医学图像分割与分类的基础模型 VISION-MAE

人工智能(AI)具有彻底改变医学成像中诊断和分割技术的潜力。然而,其开发和临床实施面临多重挑战,包括数据可用性有限、缺乏通用性,以及需要有效整合多模态数据。基础模型是一种大规模的预训练AI模型,提供了一个多功能的基础,可以适应各种特定任务和上下文。在此,本文介绍了一种专为医学成像设计的新型基础模型VISION-MAE。具体来说,VISION-MAE使用自监督学习技术,在包含250万张来自不同模态(CT、MR、PET、X光和超声)的未标记图像的数据集上进行训练。然后,它使用明确的标签适应于分类和分割任务。

2024-08-24 14:48:31 783

原创 适应CLIP作为图像去雾的聚合指导

大多数去雾方法都存在感受野有限的问题,并且没有探索视觉-语言模型中蕴含的丰富语义先验,这些模型已在下游任务中被证明是有效的。本文介绍了CLIPHaze,这是一个开创性的混合框架,它通过结合Mamba的高效全局建模能力与CLIP的先验知识和零样本能力,同时解决了这两个问题。采用并行状态空间模型和基于窗口的自注意力机制,分别获得全局上下文依赖和局部细粒度感知。为了无缝地融合来自两条路径的信息,我们引入了CLIP指导的聚合模块(CAM)。

2024-08-23 23:08:45 1136

原创 Generalized SAM: 可变输入图像尺寸SAM的有效微调

关于提高基础模型微调效率的研究层出不穷。在本文中,我们提出了一种新颖且高效的微调方法,该方法允许“Segment Anything Model”(SAM)模型的输入图像尺寸可变。SAM是一个在大型数据集上训练得到的强大图像分割基础模型,但要识别任意类别,则需要对其进行微调。SAM的输入图像尺寸固定为1024×1024,这导致训练过程中的计算需求相当大。此外,固定的输入图像尺寸可能会导致图像信息丢失,例如由于固定的宽高比。为解决这一问题,我们提出了“Generalized SAM”(GSAM)。

2024-08-23 22:42:53 1096

原创 AI与科学的结合:KAN 2.0, Kolmogorov-Arnold 网络与科学相遇

pykan(1)MultKAN(2)kanpiler(3)“AI+科学”面临的一大挑战在于它们之间固有的不兼容性:当前的AI主要基于连接主义,而科学则依赖于符号主义。为了弥合这两个领域的鸿沟,提出了一个框架,旨在将Kolmogorov-Arnold网络(KANs)与科学无缝融合。该框架着重展示了KANs在科学发现三个方面的应用:识别相关特征、揭示模块化结构以及发现符号公式。科学融入KAN(将科学知识整合到KANs中)KAN反哺科学(从KANs中提取科学洞见)。在pykan。

2024-08-23 22:11:47 1210

原创 Machine Learning in Space Weather (1):Historical Perspectives

事实上,许多古代文明,如希腊化时代的希腊、巴比伦、日本、西藏、中国和印度,都有类似的四种或五种元素的列表。太空任务数据的泛滥,以及机器学习技术的出现,意味着我们正处于一个独特的地位,可以大步迈向我们的太空目标。尽管科学家们之前已经观察到了太阳黑子及其与地球磁场变化之间的联系,但卡林顿事件是一个具体的例子,说明了太阳上的活动可能对地球产生潜在的巨大影响。但天气现象并非地球独有。在第六章中,我们利用在辐射带中轨道运行的探测器数据,结合辐射带的简化物理模型和马尔可夫链蒙特卡洛技术,推断了磁层参数中的不确定性。

2024-08-23 15:47:19 707

原创 Machine Learning in Space Weather (2):Background

Machine Learning in Space Weather (2020 by Mandar Chandorkar )BackgroundSpace weather is the branch of physics that studies the time varying phenomena in the solar system. The principal driver of space weather phenomena is the Sun, specifi

2024-08-23 15:47:06 487

原创 xGen-MM (BLIP-3):一类开放式大型多模态模型

本报告介绍了xGen-MM(亦称BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架精心整合了数据集、训练方案、模型架构,并据此构建了一系列LMMs。xGen-MM是xGen-MultiModal的简称,它扩展了Salesforce在基础AI模型方面的xGen计划。模型在各种任务中均经过严格评估,包括单图像和多图像基准测试。预训练基础模型展现了强大的上下文学习能力,而经过指令调优的模型则在具有相似模型大小的开源LMMs中表现出色。

2024-08-23 01:17:33 823

原创 MambaCSR: 使用SSM的双交错扫描压缩图像超分辨率

本文提出了MambaCSR,这是一个基于Mamba的简单但有效的框架,用于解决具有挑战性的压缩图像超分辨率(CSR)任务。尽管Mamba依赖于对所有标记的选择性状态空间建模,但其扫描策略在恢复过程中的有效上下文知识建模方面至关重要。本文为CSR提出了一种高效的双交错扫描范式(DIS),该范式由两种扫描策略组成:(i)层次交错扫描,旨在通过同时利用基于局部窗口和顺序扫描的方法,全面捕获和利用图像中最潜在的上下文信息;(ii)水平到垂直交错扫描,旨在通过减少不同方向扫描之间的冗余来降低计算成本。

2024-08-23 00:32:50 611

原创 OAPT:用于双JPEG伪影去除的偏移感知分区的Transformer

基于深度学习的方法在去除单个JPEG伪影任务中表现出了显著的性能。然而,现有方法在处理双重JPEG图像时往往会退化,而这类图像在真实场景中普遍存在。本文提出了一种用于去除双重JPEG伪影的偏移感知分区Transformer,称为OAPT。本文对双重JPEG压缩进行了分析,发现每个8x8块内最多会出现四种模式,并设计了我们的模型以聚类相似模式来克服恢复难度。OAPT由两部分组成:压缩偏移预测器和图像重建器。具体来说,预测器估计第一次和第二次压缩之间的像素偏移量,然后利用这些偏移量来区分不同的模式。

2024-08-23 00:13:39 798

原创 谷歌云AI新作:CROME,跨模态适配器高效多模态大语言模型

We proposeCROME现有的方法通常需要昂贵的语言模型再训练和有限的适应性。此外,目前对zero-shot性能改进的关注为特定于任务的调优提供了不足的指导。提出了CROME,一个高效的视觉语言指令调优框架。它具有新颖的门控跨模态适配器,可以在输入到冻结LLM之前有效地结合视觉和文本表示。这个轻量级适配器使用最小的参数进行训练,可以实现高效的跨模式理解。值得注意的是,CROME在标准视觉问题回答和指令遵循基准上表现出优越的zero-shot性能。

2024-08-21 06:54:51 1085

原创 摩托罗拉、联想新作:MobileMEF 快速有效的多曝光融合方法

https://arxiv.org/pdf/2408.07932GitHubLucas Nedel Kirsten, Zhicheng Fu, Nikhil Ambha MadhusudhanaRecent advances in camera design and imaging technology have enabled the capture of high-quality images using smartphones. However, due to the limited dynamic

2024-08-20 13:10:24 809

原创 SAM2-UNet: SAM2用于自然和医学图像分割

本文证明了 Segment Anything Model 2 (SAM2) 对于U-Net图像分割任务非常有效。本文提出了图像分割的 SAM2-UNet。SAM2-UNet 使用 SAM2 的分级骨干网络作为编码器;解码器使用经典U-Net。微调过程的adapters插在编码器中。

2024-08-20 12:21:16 1087

原创 最新视频的分割一切综述 Segment Anything for Videos : A Systematic Survey

基础模型(Foundation Models)在大规模数据集上进行预训练,能够学习输入数据的通用表示,并提取出有意义的特征,这些特征可以进一步针对特定应用进行微调。分割任何事物模型(Segment Anything Model,SAM)通过在一亿多个掩码和一千一百万张图像上进行训练,能够根据多种提示(如点、框和文本)生成高质量的分割掩码。更重要的是,SAM在各种分割任务(如交互式分割、语义分割和全景分割)中表现出强大的零样本泛化能力,而无需重新训练或微调。

2024-08-20 11:10:49 959

原创 Token Compensator:无需重新微调即可改变视觉Transformer的推理成本

随着ViTs规模的快速增长,其不断增加的计算成本已成为一个紧迫的问题。因此,大量研究正致力于加速ViTs的训练和推理过程。ViTs的一个特点是它们能够容纳可变数量的输入标记(tokens)。因此,除了卷积神经网络中广泛使用的模型剪枝、量化和蒸馏等传统技术外,最近的研究还提出了通过标记压缩来加速ViTs的方法,如剪除不重要的标记或合并相似的标记。标记压缩技术具有显著的优势。与剪枝和蒸馏等技术相比,一些标记压缩方法(如ToMe[2])可以零样本地应用于现成的模型,或用于加速训练;

2024-08-18 21:58:24 986

原创 [All-in-one] AdaIR:自适应全合一图像恢复通过频率挖掘和调制

在图像采集过程中,经常会引入各种形式的退化,包括噪声、模糊、雾气和雨水等。这些退化通常源于相机的固有局限或不利的环境条件。为了从退化的图像版本中恢复出清晰的图像,已经开发出了许多专门的恢复方法,每种方法都针对特定类型的退化。最近,一体化算法因其能够在单个模型中处理不同类型的退化而无需输入退化类型的先验信息,从而受到了广泛关注。然而,这些方法纯粹在空间域中操作,并未深入研究不同退化类型所固有的不同频率变化。为了填补这一空白,提出了一种基于频率挖掘和调制的自适应一体化图像恢复网络。

2024-08-18 19:26:34 706

原创 [All-in-one] 动态预训练 Dynamic Pre-training : 面向高效和可扩展的一体化图像恢复

本文验证了一站式设置下DyNet在图像去噪、去雨和去雾方面的性能,与基线模型相比,本文的方法在GFLOPs上减少了31.34%,在参数上减少了56.75%,同时达到了最先进的结果。通过提出的动态预训练策略,:为了建立鲁棒的权重初始化,本文引入了一种动态预训练策略,该策略能够同时训练DyNet的庞大和轻量级变体,从而在单个预训练会话中节省50%的GPU时间。数据集的发布不仅为图像恢复任务的预训练提供了新的资源,还通过展示其在实际应用中的潜力,强调了大数据在推动深度学习模型进步中的重要性。

2024-08-18 17:53:51 825

原创 [All-in-one] 多模态提示感知器: 赋予适应性,通用性和保真度为一体的图像恢复

尽管取得了显著进展,但全功能图像恢复(IR)在处理复杂的现实世界退化方面仍面临持续挑战。本文介绍了MPerceiver:一种新颖的多模态提示学习方法,该方法利用Stable Diffusion(SD)先验来增强全功能图像恢复的适应性、泛化能力和保真度。具体而言,我们开发了一个双分支模块来掌握两种类型的SD提示:文本提示用于整体表示,视觉提示用于多尺度细节表示。这两种提示均根据CLIP图像编码器的退化预测进行动态调整,从而能够对各种未知的退化做出适应性响应。

2024-08-17 10:39:08 943

原创 ColorMamba:面向基于Mamba的高质量NIR到RGB光谱转换

为了探索全局长距离依赖性和局部上下文以实现高效的光谱转换,我们引入了可学习的填充标记来增强图像边界的区分度,并防止序列模型内部潜在的混淆。然而,标准的Mamba模型在处理图像时采用的默认扫描策略会不经意间将空间上接近的像素放置在一维数组中的不同位置,导致所谓的“局部上下文忽视”现象,即相邻像素之间的空间相关性没有得到充分保留。为了弥补这一缺陷,我们在Mamba块之前和之后添加了卷积层。这些卷积层能够提取图像的局部特征,并将这些特征作为Mamba处理的输入和输出的一部分,从而增强了模型对局部上下文的敏感性。

2024-08-17 09:53:27 1071

原创 谷歌新作:面向灵活感知的视觉记忆

训练神经网络是一项整体性的工作,类似于将知识刻入石头:一旦这个过程完成,由于所有信息都分布在网络的权重中,在网络中编辑知识几乎是不可能的。本文探索了一种简单而有力的替代方案,即将深度神经网络的表示能力与数据库的灵活性结合起来。通过将图像分类任务分解为图像相似性(基于预训练嵌入)和搜索(通过从知识数据库快速检索最近邻),构建了一个简单且灵活的视觉记忆系统,该系统具有以下关键功能:(1)能够灵活地跨尺度添加数据:从单个样本到整个类别乃至十亿级的数据;(2)通过遗忘和内存修剪来删除数据的能力;

2024-08-17 07:16:46 876

原创 CamoTeacher: 半监督伪装目标检测的双旋转一致性学习

现有的伪装目标检测方法严重依赖于大规模的像素级标注。然而,由于对象固有的伪装特性,获取这样的注释是费力的。半监督学习为这一挑战提供了一个有希望的解决方案。然而,它在COD中的应用受到严重的伪标签噪声(包括像素级和实例级)的阻碍。本文介绍了一种新的半监督COD框架CamoTeacher,它利用双旋转一致性学习(Dual-Rotation Consistency Learning, DRCL)来有效地解决这些噪声问题。具体来说,DRCL通过利用旋转视图在像素级和实例级的一致性来最小化伪标签噪声。

2024-08-16 19:24:03 877

原创 MambaMIM: 预训练Mamba与状态空间标记插值

GitHub - FengheTan9/MambaMIM | 2408.08070 (arxiv.org)Generative self-supervised learning demonstrates outstanding representation learning capabilities in both Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). However, there are curre

2024-08-16 18:42:22 716

原创 HAIR : 基于超网络的一体化图像恢复

图像恢复涉及到从其退化版本中恢复高质量的干净图像,这是计算机视觉中的一项基本任务。图像恢复的最新进展已经证明了能够同时处理各种退化的学习模型的有效性,即All-in-One图像恢复模型。然而,这些现有的方法通常对不同退化类型的图像使用相同的参数,这导致模型被迫在退化类型之间进行权衡,从而损害了总体性能。为了解决这个问题,本文提出了HAIR,这是一种基于超网络的即插即用方法,它根据输入图像的内容动态地为相应的网络生成参数。分类器(Cl)和超选择网(HSN)。

2024-08-16 18:05:02 654

原创 TPAMI 2024 基于Transformer视觉分割研究进展

视觉分割寻求将图像、视频帧或点云分割成多个片段或组。这项技术在现实世界中有许多应用,如自动驾驶、图像编辑、机器人传感和医学分析。在过去的十年中,基于深度学习的方法在这一领域取得了显著的进步。最近,Transformer,一种基于自关注的神经网络,最初是为自然语言处理而设计的,在各种视觉处理任务中大大超过了以前的卷积或循环方法。具体来说,视觉Transformer为各种分割任务提供了强大,统一,甚至更简单的解决方案。本调查提供了基于Transformer的视觉分割的全面概述,总结了最近的进展。

2024-08-16 17:25:24 1052

原创 Generative Photomontage :允许用户通过合成多个生成的图像来创建想要的图像

singleimage that captures everything a user wants [道出本文动机].it from various parts of generated images [核心思想]ControlNet。

2024-08-16 17:05:17 942

原创 MetMamba:基于时空Mamba模式的区域天气预报

基于深度学习的天气预报(DLWP)模型近年来取得了迅速的发展,显著超越了最先进的数值天气预报模型。有限区域建模和更适用于天气预报的骨干网络。本文展示了MetMamba,一种基于最先进的状态空间模型Mamba构建的DLWP模型,该模型在使用传统注意力机制和神经算子的其他流行骨干网络上具有显著的性能提升和独特优势。本文还通过全局宿主模型的耦合训练,证明了基于深度学习的有限区域建模的可行性。

2024-08-15 21:41:35 828

李飞飞团队《2024年人工智能指数报告》《Artificial Intelligence Index Report 2024》

李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2024 年人工智能指数报告》,全面追踪了全球人工智能的发展趋势,更总结了十大核心趋势!这是该团队发布的最为详尽的报告,且其发布时机恰逢AI对社会的深远影响日益显现的重要时刻!强烈推荐阅读学习! 【十大主要趋势】 1、人工智能在某些任务上胜过人类,但并非在所有任务上。 2、产业界继续主导人工智能前沿研究。 3、前沿模型变得更加昂贵。 4、美国领先中国、欧盟和英国,成为顶级人工智能模型的主要开发国家。 5、目前严重缺乏对大语言模型负责任的可靠和标准化评估。 6、生成式人工智能投资飙升。 7、人工智能使工人更有效率,并带来更高质量的工作。 8、人工智能崛起推动科学进步的速度愈发迅猛。 9、美国的人工智能法规数量呈现出急剧增加的趋势。 10、在全球范围内,公众对人工智能的潜在影响有了更为深刻的认识,同时伴随着日益增长的紧张情绪。【描述来自CVer https://wx.zsxq.com/dweb2/index/topic_detail/4844518514581258】

2024-08-12

腾讯研究院《工业大模型应用报告》 2024年3月

腾讯研究院发布的《工业大模型应用报告》,主要分析了大模型在工业智能化发展中的应用现状、机遇、挑战及未来展望,不论是以后离开学校工作还是留在学校科研,都值得一看以指导工作和研究方向。 大模型为工业智能化发展带来新机遇 大模型与小模型在工业领域的分布态势 工业大模型的构建模式 大模型在工业全链条的应用 工业大模型的挑战与展望

2024-08-12

GitHub上传方法.docx

详细介绍如何上传GitHub项目! 1. 先到github 个人网页上建立新的 2. 进入要上传的文件夹内,右键,选择 Git Bash Here 然后,出现如下界面。输入: git clone [刚才建立的新网址] 3. 这个时候,就建立本地 git 链接文件了(红框标记),这个文件可以理解为github与本地链接点。然后把所有要上传的文件拖进去。

2020-07-26

synset_words.txt

最新最权威synset_words.txt,可用于OpenCV dnn模块caffe模型对图片进行分类,识别,做迁移学习,强化学习使用的标签参考。 放在与classification_demo.m同一个文件夹下。

2018-05-25

bvlc_reference_caffenet.caffemodel

bvlc_reference_caffenet.caffemodel 是 matlab 调用 caffe 时需要的 model 文件。放到caffe-master\models\bvlc_reference_caffenet文件夹下。

2018-05-25

去雾算法 dehazing 最新顶级会议和期刊论文打包下载(08-14年)

本文档涵盖了去雾算法在2008-2014年间的顶级论文,这些论文包括在17、18年顶级期刊和会议(CVPR,ECCV,ICCV)上的论文。本文档没有包含何凯明的DCP和导向滤波器论文。这两篇论文在网上比较好下载。

2018-03-19

去雾算法 dehazing 最新顶级会议和期刊论文打包下载(15-16年)

本文档涵盖了去雾算法在 2015-2016 年间顶级论文,这些论文包括在15、16年顶级期刊和会议(CVPR,ECCV,ICCV)上的论文。

2018-03-19

去雾算法 dehazing 最新顶级会议和期刊论文打包下载(17-18年)

本文档涵盖了2017-2018(3月之前)几乎全部的顶级论文,这些论文包括在17、18年顶级期刊和会议(CVPR,ECCV,ICCV)上的论文,也有许多是最新提出的基于深度学习模型的去雾算法,在arXiv上共享但还未发表。

2018-03-19

宽度学习 Broad Learning System MATLAB代码(2):NORB实践

陈俊龙教授团队“Broad Learning System: An Effective and Efficient Incremental Learning System Without the Need for Deep Architecture”的中文综述,原文将在IEEE Transactions on Neural Networks and Learning Systems, Vol. 29, Issue 1, 2018

2018-03-19

A Probabilistic Collaborative Representation based Approach for

本资源是 2016 CVPR 文章的代码. 文章原文题目是: A Probabilistic Collaborative Representation based Approach for Pattern Classification

2018-01-11

17CVPR_CODE_Learning Dynamic Guidance for Depth Image Enhancement

17CVPR_CODE_Learning Dynamic Guidance for Depth Image Enhancement 17 cvpr 代码

2018-01-11

SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <1MB .pdf

Recent research on deep convolutional neural networks (CNNs) has focused primarily on improving accuracy. For a given accuracy level, it is typically possible to identify multiple CNN architectures that achieve that accuracy level. With equivalent accuracy, smaller CNN architectures offer at least three advantages: (1) Smaller CNNs require less communication across servers during distributed training. (2) Smaller CNNs require less bandwidth to export a new model from the cloud to an autonomous car. (3) Smaller CNNs are more feasible to deploy on FPGAs and other hardware with limited memory.

2017-12-20

基于小波变换的图像增强算法.pdf

结合小波变换中相关系数理论,提出了一种基于小波变换的图像增强算法,该算法先区分小波域中由细节及噪声产生的高频系数,对由细节产生的信息进行增强,对噪声进行抑制·解决了通常算法中增强细节信号的同时也放大了噪声这个问题·实验表明,该算法在得到很好的图像增强的同时,能很好地抑制噪声,对于多噪声环境下的弱细节信号能达到很好的增强效果·

2014-07-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除