自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 使用YOLOv5进行王者荣耀目标检测

使用YOLOv5进行王者荣耀目标检测_自学1.0

2024-11-18 20:11:58 2516

原创 GPT + Transformer + LSTM + Attention

Transformer 用自注意力 + 并行计算重塑序列处理,GPT 将其推向文本生成极致,但其 “智能” 本质是 token 模式的统计拟合,与人类具身智能存在本质鸿沟

2024-10-22 08:00:00 696

原创 最全最细机器学习笔记__吴恩达

吴恩达《Machine Learning》精炼笔记完整版,研一自用版,如果对大家有用,那我也很高兴,一起进步。

2024-09-23 18:11:31 2375 3

原创 回顾Transformer,并深入讲解替代方案Mamba原理(图解)

Mamba 是基于选择性状态空间模型的新型架构,通过动态调整矩阵参数和步长实现内容感知推理,结合并行扫描算法与硬件融合技术,突破 Transformer 的二次复杂度瓶颈。其采用 HiPPO 矩阵初始化捕捉长程依赖,离散化技术支持线性时间递归推理与卷积并行训练,在长文本生成任务中性能接近同规模 Transformer,且理论支持无限上下文长度。该模型通过动态参数设计和硬件协同优化,为低延迟推理场景提供高效解决方案,成为长序列建模领域的重要创新方向。

2025-03-17 23:50:54 732

原创 什么是端到端end-to-end?

端到端范式的本质是让模型从 “执行者” 变为 “决策者”,人类只需定义 “输入” 和 “目标”,中间的感知、推理、决策全由模型自主完成。这一变革推动了 AI 从 “专项工具” 向 “通用智能” 演进,但也对数据、算力和可解释性提出了更高要求。

2025-03-16 10:24:10 398

原创 Machine Learning: 十大基本机器学习算法

十大基本机器学习算法

2025-03-12 12:41:38 1760 2

原创 7day_itinerary

七天日本旅行

2025-03-06 19:02:40 553

原创 FCDFusion:一种用于融合可见光和红外图像对的快速、低色彩偏差的方法

可见光和红外图像融合(VIF)旨在将可见光和红外图像的信息组合成单个融合图像。以前的 VIF 方法通常采用色彩空间转换来保持原始可见图像的色调和饱和度。然而,对于快速 VIF 方法,此操作占计算的大部分,并且是阻止更快处理的瓶颈。在本文中,我们提出了一种快速融合方法,FCDFusion,颜色偏差很小。它通过直接在 RGB 颜色空间中操作来保留颜色信息,无需进行颜色空间转换。它以很少的额外成本集成了伽玛校正,从而可以快速改善色彩和对比度。我们将融合过程视为对3D颜色向量的缩放操作,大大简化了计算。

2025-01-13 11:57:44 839

原创 SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

本研究提出了一种基于跨域远程学习和 Swin Transformer 的新型通用图像融合框架,称为 SwinFusion。一方面,设计了注意力引导的跨域模块,以实现互补信息和全局交互的充分整合。更具体地说,所提出的方法涉及基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,它们挖掘并集成同一域内和跨域的长依赖关系。通过远程依赖建模,网络能够全面实现特定领域的信息提取和跨领域互补信息集成,并从全局角度保持适当的表观强度。

2025-01-10 22:24:25 703

原创 A practical infrared and visible image fusion network based on progressive ..._译文

图像融合旨在将源图像的互补特征集成到单个融合图像中,更好地服务于人类视觉观察和机器视觉感知。然而,大多数现有的图像融合算法主要侧重于提高融合图像的视觉吸引力。尽管有一些语义驱动的方法考虑了下游应用程序的语义需求,但与特征级融合相比,它们都没有展示出图像级融合的潜力,特征级融合直接在多模态特征上完成高级视觉任务,而不是在多模态特征上完成高级视觉任务。在融合图像上。为了克服这些限制,本文提出了一种基于渐进语义注入和场景保真度约束的实用红外和可见光图像融合网络,称为 PSFusion。

2025-01-08 22:40:04 577

原创 Deep blind super-resolution for hyperspectral images_译文

目前单张高光谱图像超分辨率的深度学习方法都是非盲方法,采用简单的双三次退化模型。这些模型泛化性能较差,无法处理未知的退化。此外,RGB图像的盲超分辨率方法忽略了高光谱图像中丰富的光谱信息,导致结果光谱失真。为了解决这些问题,我们考虑退化估计并提出一种单高光谱图像盲超分辨率算法。具体来说,我们首先使用模糊核估计网络和去模糊网络来获得没有模糊的图像。我们在估计核时通过交换空间通道信息来改变感受野,从而获得不同尺度的模糊信息。

2025-01-06 23:50:46 943

原创 DDcGAN_多分辨率图像融合的双鉴别条件生成对抗网络_y译文马佳义

生成器的目的是基于特定设计的内容损失生成类似真实的融合图像,以欺骗两个鉴别器,而两个鉴别器的目的是除了内容损失之外,分别区分融合图像与两个源图像之间的结构差异。因此,融合图像被迫同时保持红外图像中的热辐射和可见光图像中的纹理细节。此外,为了融合不同分辨率的源图像,例如低分辨率红外图像和高分辨率可见光图像,我们的DDcGAN将下采样融合图像约束为具有与红外图像相似的属性。此外,我们还将我们的DDcGAN应用于融合不同分辨率的多模态医学图像,例如低分辨率正电子发射断层扫描图像和高分辨率磁共振图像。

2025-01-05 17:07:38 496 2

原创 使用深度学习来实现图像超分辨率 综述!

基于深度学习的超分辨率也被应用到其它特定领域的应用中,而且表现出色。该模型通过在不同尺度上对输入低分辨率图像与高分辨率参考图像中的相似图像块进行全局的搜索与迁移,上述过程可以很好地通过高分辨率的参考图像中的高频纹理对输入低分辨率图像进行表达,进而得到非常真实的超分辨率结果。如图10所示,当用户插入一张低分辨率的图像时,会自动触发 Design Ideas 模块,一旦用户确认使用图像超分辨率技术进行图像增强,原始的低分辨率图像将立即被一张高分辨率的图像所替代,整个过程耗时极低,实际效果却有着很大的提升。

2025-01-05 11:42:54 1786

原创 A semantic-aware real-time infrared and visible image fusion network_译文_Jiayi Ma

红外与可见光图像融合旨在合成一幅融合后的图像,该图像不仅包含显著目标和丰富的纹理细节,还能促进高级视觉任务的实现。然而,现有的融合算法片面关注融合图像的视觉质量和统计指标,而忽略了高级视觉任务的需求。为了解决这些问题,本文在图像融合与高级视觉任务之间架起了桥梁,并提出了一种语义感知的实时图像融合网络(SeAFusion)。一方面,我们将图像融合模块与语义分割模块级联,并利用语义损失引导高级语义信息反馈到图像融合模块,从而有效提升融合图像在高级视觉任务中的性能。

2025-01-03 23:51:22 1182

原创 级联配准learning

这些算法可以找到图像中的关键特征点,并根据特征点的描述子来精确匹配两张图像中的对应点,然后通过计算变换矩阵(如仿射变换或透视变换矩阵)来实现更准确的图像配准。它主要用于将不同视角、不同模态或者不同时间获取的图像进行精确的对齐,并且是通过多个阶段(级联)的处理来逐步优化配准的精度。比如,先利用图像的地理坐标等信息进行初步的粗配准,然后基于地表特征(如河流、山脉等)的细节进行精配准,以便进行土地利用变化监测、资源勘查等应用。:可以根据不同的图像类型和应用需求,灵活选择不同的配准算法和参数进行每一级的配准。

2025-01-02 17:33:24 553 1

原创 Semantics lead all: Towards unified image registration and fusion from a semantic perspective_译文

红外-可见光图像配准和融合是密切相关的过程,在统一的框架中实现协调配准和融合是一个有吸引力的问题。现有方法的配准精度无法满足某些场景下的融合需求,影响融合视觉性能。此外,作为图像预处理步骤,级联配准和融合后的网络速度不足以完成更高级的任务,从而限制了这些方法的可用性。为了解决上述问题,我们提出了一种使用语义主导的网络,称为 SemLA,能够以高效且鲁棒的方式统一配准和融合过程。我们的关键思想是在网络的所有阶段显式嵌入语义信息。

2025-01-01 22:48:12 849

原创 强化学习第二天:Q​-learning从理论到实践

强化学习讨论的问题是一个。

2025-01-01 12:21:02 1291

原创 红外与可见光图像配准技术研究综述

李云红,刘宇栋,苏雪平,罗雪敏,姚 兰(西安工程大学 电子信息学院,陕西 西安710048摘要:多模态图像配准能提供比单模态图像配准更加丰富和全面的信息,红外与可见光图像配准作为 一种常见的多模态配准类型,在电力、遥感、军事以及人脸识别等领域具有重要的应用价值。首先介绍了红外与可见光图像配准的相关技术并阐述了配准中存在的难点与挑战,然后详细分析和总结了基 于区域、基于特征和基于深度学习 3。

2024-12-29 10:47:43 1547

原创 Stable Diffusion 万字长文详解稳定扩散模型

Stable Diffusion 是 Diffusion 扩散模型中最先进的模式(Diffusion 有一些早期版本,比如: 原始Diffusion、Latent Diffusion它采用了更加稳定、可控和高效的方法来生成高质量图像。在生成图像的质量、速度和成本上都有显著的进步,因此该模型可以直接在消费级显卡上实现图像生成,可达至少 512*512 像素的图像。最新的 XL 版本可以在 1024*1024 像素的级别上生成可控的图像,生成效率也比以往的 Diffusion 扩散模型提高了30倍。

2024-12-28 10:57:24 3332 6

原创 大模型系列——解读RAG

有关实施细节,可以参考。,即使输入上下文的窗口很大,一个或几个句子的向量也比一个在几页文本上取平均值的向量更能代表它们的语义意义 ,所以数据分块是一个有意义的技术。数据块的大小是一个需要考虑的参数,它取决于使用的嵌入模型及其token容量,标准的transformer编码模型,如BERT 的句子转换器,最多只能使用512个token,OpenAI ada-002能够处理更长的序列,如8191个token,但这里的折衷是足够的上下文,让 LLM 能够推理以及特定的足够文本嵌入,以便有效地执行搜索。

2024-12-28 10:27:02 943

原创 一文带你了解大模型——智能体(Agent)

通过 API 调用 LLM 时,调用方可以描述函数,包括函数的功能描述、请求参数说明、响应参数说明,让 LLM 根据用户的输入,合适地选择调用哪个函数,同时理解用户的自然语言,并转换为调用函数的请求参数(通过 JSON 格式返回)。在角色中,会注册各种工具,定义思考规划的方式,以及本身具备的短期记忆能力。智能体 如上图所示,在基于 LLM 的智能体中,LLM 的充当着智能体的“大脑”的角色,同时还有 3 个关键部分:规划(Planning)、记忆(Memory)、工具使用(Tool use)

2024-12-28 10:02:59 977

原创 强化学习第1天:强化学习概述

强化学习是机器学习中一种独特的存在,以其独特的思想逐渐发展为一门独立的学科,强化学习适用的场景是:一个学习主体根据环境做出不同的决策,得到相应的奖励与惩罚来改进决策 它既不是监督学习也不是无监督学习,从这段描述中也可以看出,它不适合用来进行回归或者聚类等任务了解了什么是强化学习学习了强化学习的基本概念通过一个简单示例直观感受了强化学习的基本流程学习了将图片动画化的技术。

2024-12-27 10:29:11 911

原创 图像配准:从SIFT到深度学习+如何使用深度学习创建可变形图像配准

简单的说,我们选择两个图像中的感兴趣点,将参考图像(reference image)与感测图像(sensed image)中的等价感兴趣点进行关联,然后变换感测图像使两个图像对齐。通常,由于患者的局部变形(因呼吸,解剖学变化等),两个医学图像之间的变换不能简单地通过单应矩阵描述,这需要更复杂的变换模型,例如由位移矢量场表示微分同胚(diffeomorphisms)。作者声称,与传统的基于特征的方法相比,这种无监督方法具有相当或更高的准确率和鲁棒性,并且具有更快的执行速度。然后我们设定比率来保持正确率。

2024-12-27 10:19:45 1011

原创 【图像配准】使用OpenCV进行多图配准拼接

本篇主要利用OpenCV自带的配准拼接函数。

2024-12-27 10:13:44 838

原创 图像配准的前世今生:从人工设计特征到深度学习

这些图像可以是不同时间拍摄的(多时间配准),可以是不同传感器拍摄的(多模配准),可以是不同视角拍摄的。这些图像之间的空间关系可能是刚体的(平移和旋转)、仿射的(例如错切),也有可能是单应性的,或者是复杂的大型形变模型。简而言之,我们在两幅图像中选择兴趣点,将参考图像中的每个兴趣点和它在待配准图像中的对应点关联起来,然后对待批准图像进行变换,这样两幅图像就得以对齐。这篇文章的作者称,与传统的基于特征的方法相比,这种无监督方法以更快的推理速度得到了相当的或者更高的准确率,以及关于光照变化的鲁棒性。

2024-12-25 23:44:39 1034

原创 关于图像配准(Image Registration)的基础知识汇总

(1)图像配准(Image registration)是将同一场景拍摄的不同图像进行对齐的技术,即找到图像之间的点对点映射关系,或者对某种感兴趣的特征建立关联。以同一场景拍摄而成的两幅图像为例。假如实际的三维世界点P在两幅图像中分别对应着P1和p2两个二维图像点。图像配准要做的就是找到P1和P2的映射关系,或者p1、p2跟P的关系。p1和p2被称为对应点匹配点或控制点。

2024-12-24 13:12:26 2339

原创 图像配准有哪些技术?

图像配准是计算机视觉和医学成像中的一项关键技术,用于将多幅图像对齐到一个共同的坐标系中。答:流行的库包括用于一般计算机视觉任务的 OpenCV、用于医学图像分析的 SimpleITK 以及用于基于学习的方法的 TensorFlow 或 PyTorch。基于特征的配准方法可识别和匹配图像之间的独特特征。答:基于特征的配准依赖于检测和匹配图像之间的不同特征,而基于强度的配准使用像素值和统计测量来找到最佳对齐。答:可变形配准的挑战包括处理复杂的变形、高昂的计算成本以及对精确的模型参数的需求。

2024-12-23 22:54:42 1169

原创 图像处理中的图像配准方法

通过各种方法(从基于特征的方法(如 ORB 和 SIFT)到基于强度的技术和高级深度学习模型),此过程可以整合在不同条件下或从不同传感器捕获的图像。图像对齐或图像配准是将不同时间、从不同视点或使用不同传感器拍摄的同一场景的图像叠加在一起以实现空间对应的过程。它可识别不受比例和旋转影响的关键点,从而能够有效地匹配大小和方向各异的图像之间的特征。它使用积分图像来加速检测器和描述符的计算。根据图像的性质和应用的具体要求,使用不同的方法。图像配准将同一场景的多幅图像对齐到共同的坐标系,以便进行准确的比较和分析。

2024-12-23 22:23:56 2624

原创 基于YOLOv5的行人与帽子检测与识别说明文档

在计算机视觉领域,头盔检测至关重要,主要用于判定图像或视频里的人是否佩戴头盔。于工业生产、建筑工地、交通出行(如摩托车与自行车骑行)等高危场景而言,头盔是关键防护装备,能大幅降低意外事故中的伤亡风险。可现实中,许多人未依规佩戴,致使事故伤害加剧。因此,自动化头盔检测系统意义重大,可辅助相关方监督管理头盔佩戴规定的执行。深度学习与计算机视觉技术的进步,让基于图像的目标检测广泛应用。卷积神经网络(CNN)显著提升了图像识别与目标检测精度,使头盔检测得以实现。

2024-12-18 23:03:08 868

原创 Geometric Estimation via Robust Subspace Recovery_译文ECCV2020

根据图像点对应关系进行几何估计是许多 3D 视觉问题的核心过程,通常通过随机采样技术来完成。在本文中,我们从优化的角度考虑该问题,利用点对应的内在线性结构来辅助估计。我们将传统方法推广为鲁棒方法,并扩展了之前对线性结构的分析来开发几种新算法。所提出的解决方案本质上是通过解决子空间恢复问题来识别内点来解决估计问题。对基本矩阵和单应性估计的真实图像数据集进行的实验证明了我们的方法在鲁棒性和准确性方面优于最先进的方法。

2024-12-12 23:52:53 994

原创 L0、L1与L2范数、核范数+范式

L0、L1与L2范数、核范数 norm

2024-12-10 11:45:05 2406 1

原创 SwinFusion: Cross-domain Long-range Learning,forGeneral Image Fusion via Swin Transformer_译文

本研究提出了一种基于跨域远程学习和 Swin Transformer 的新型通用图像融合框架,称为 SwinFusion。一方面,设计了注意力引导的跨域模块,以实现互补信息和全局交互的充分整合。更具体地说,所提出的方法涉及基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,它们挖掘并集成同一域内和跨域的长依赖关系。通过长程依赖建模,网络能够全面实现特定领域的信息提取和跨领域互补信息集成,并从全局角度保持适当的表观强度。

2024-12-09 15:04:49 1081

原创 SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion __Hao Zhang CCF A

本文提出了一种压缩分解网络(SDNet)来实现实时多模态和数字摄影图像融合。首先,我们一般将多个融合问题转化为梯度和强度信息的提取和重建,并相应地设计一种通用形式的损失函数,该损失函数由强度项和梯度项组成。对于梯度项,我们引入了自适应决策块,根据像素尺度的纹理丰富度来决定梯度分布的优化目标,从而引导融合图像包含更丰富的纹理细节。对于强度项,我们调整每个强度损失项的权重,以改变来自不同图像的强度信息的比例,从而使其能够适应多个图像融合任务。其次,我们将压缩和分解的思想引入到图像融合中。

2024-12-08 00:09:37 1040

原创 An Overview of Multi-Task Learning in Deep Neural Networks

多任务学习(MTL)在机器学习的许多应用中都取得了成功,从自然语言处理和语音识别到计算机视觉和药物发现。本文旨在对MTL进行一般性概述,特别是在深度神经网络中的应用。它介绍了深度学习中MTL的两种最常用的方法,概述了相关文献,并讨论了最近的进展。特别地,它旨在帮助ML实践者应用MTL,通过阐明MTL的工作原理并提供选择适当辅助任务的指导原则。

2024-12-06 22:26:01 881

原创 超分辨率入门

插值法通过在图像原有的像素周围插入新像素来加大图像的尺寸,并给这些像素赋值,从而恢复图像内容,达到提高图像分辨率的效果。基于重构的超分辨算法,通常是用多幅在同一场景下拍摄的低分辨率图像作为输入,然后对这些图像的频域或空域关系进行分析,通过引入先验信息对重建过程进行指导和约束,进而重建得到单张高分辨率图像。基于学习的超分辨率方法,通常是利用大量的训练数据,通过学习低分辨率图像和高分辨率图像之间的映射关系,预测低分辨图像中丢失的高频细节信息,从而生成超分辨图像。基于浅层学习的方法主要包括。防止其图像质量下降。

2024-12-04 10:33:40 481

原创 ccf A 类与sci 一区那个比较难? + 论文常识

从目前的奖励制度来看,大多数高校的认可度一般ccf 中文a>>ccf 中文a。

2024-12-02 10:07:47 2286

原创 Multimodal Few-Shot Learning with Frozen Language Models译文

当经过足够规模的训练时,自动回归语言模型在只需要几个例子的提示下就能表现出学习新语言任务的显著能力。在这里,我们提出了一种简单而有效的方法,将这种少量学习能力转移到多模态环境(视觉和语言)。使用对齐的图像和标题数据,我们训练了一个视觉编码器,将每个图像表示为连续嵌入的序列,这样一个预训练的、固定的语言模型就会用这个前缀提示生成适当的标题。由此产生的系统是一个多模态少镜头学习器,当以多个交错图像和文本嵌入序列为条件时,具有学习各种新任务的惊人能力。

2024-12-01 23:38:20 904

原创 Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics译文_CVPR

在本文中,我们观察到此类系统的性能很大程度上取决于每个任务损失之间的相对权重。手动调整这些权重是一个困难且昂贵的过程,使得多任务学习在实践中难以实现。我们提出了一种多任务深度学习的原则方法,通过考虑每个任务的同方差不确定性来权衡多个损失函数。这使我们能够在分类和回归设置中同时学习具有不同单位或尺度的各种数量。

2024-11-30 23:41:38 784

原创 GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask译文

深度多任务网络,即一个神经网络产生多个预测输出,可以比单任务网络提供更好的速度和性能,但正确的训练具有挑战性。我们提出了一种梯度归一化(GradNorm)算法,通过动态调整梯度大小来自动平衡深度多任务模型的训练。我们表明,对于各种网络架构,对于回归和分类任务,以及合成和真实数据集,与单任务网络、静态基线和其他自适应多任务损失平衡技术相比,GradNorm提高了准确性,并减少了跨多个任务的过拟合。GradNorm也匹配或超过穷举网格搜索方法的性能,尽管只涉及单个不对称超参数α。因此,曾经是一个乏味的搜索过程,

2024-11-30 19:32:50 1297

原创 Language Translation with TorchText

利用torchtext类来处理一个著名的数据集,包含了一些英文和德文句子。利用该数据处理sequence-to-sequence模型,通过注意力机制,可以将德语翻译成英语。

2024-11-29 23:05:19 865

王者荣耀数据集及其代码-yolov5

王者荣耀世数据集及其代码-yolov5

2024-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除