- 博客(255)
- 收藏
- 关注
原创 基于深度学习的水果图像识别研究【k学长深度学习宝库】
本文基于Fruits-360数据集,设计了一个轻量级CNN模型实现对5种水果(苹果、葡萄、梨、香蕉、樱桃)的图像分类。模型采用3层卷积结构,通过数据增强和Adam优化器训练5轮,在验证集上取得良好效果。实验表明模型对简单背景图像识别准确率超过90%,但对复杂环境鲁棒性有限。分析显示该结构适用于小规模分类任务,但对其他数据集需调整。未来可优化网络结构、应用迁移学习并提升部署能力。研究为水果智能识别提供了可行方案。
2026-01-22 16:32:41
748
原创 用CNN,transformer,CNN-transfomer三种模型完成故障诊断【k学长深度学习宝库】
本文研究基于深度学习的隔离型DC-DC变换器故障诊断方法。针对DAB变换器开关管和二极管故障,构建包含八类单管故障和六类双管故障的仿真数据集,每组数据包含四个电压信号。研究采用CNN、Transformer及CNN-Transformer混合模型进行故障分类,实现端到端的特征提取与诊断。实验结果表明,所提方法能有效识别多种故障类型,准确率超过90%。该研究为电力电子设备智能诊断提供了新思路,有助于提升新能源系统可靠性。全文包含故障建模、特征提取、网络优化等关键技术,并通过大量仿真验证了方法的有效性。
2026-01-21 14:13:10
658
原创 bert实现网络暴力分析模型【k学长深度学习专栏】
中文网络暴力文本检测系统是一个基于深度学习技术的自然语言处理应用,专门用于识别中文社交媒体、论坛和网络平台中的网络暴力内容。该系统采用预训练语言模型BERT作为核心架构,通过监督学习方式对文本进行二分类(暴力/非暴力),并提供了全面的评估和可视化功能。深度学习,从入门到进阶,你想要的,都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。深度学习,从入门到进阶,你想要的,都在这里。包含学习专栏、视频课程、论文源码、实战项目、云盘资源等。预训练模型适配:专为中文文本优化,支持多种BERT变体。
2026-01-21 14:07:55
463
原创 基于Transformer的无人机对地突防轨迹预测方法研究【k学长深度学习宝库】
本文介绍了一个基于深度学习的无人机轨迹预测系统。该系统采用多模态神经网络架构,通过处理历史飞行数据(包括三维坐标和速度)来预测未来轨迹。系统包含数据预处理、模型训练、性能评估和可视化四大模块,支持滑动窗口技术处理序列数据。评估指标包括MSE、RMSE和MAE,并提供三维轨迹图等可视化工具。系统适用于空中交通管理等场景,但对数据质量和计算资源有一定要求。详情可访问k学长的深度学习宝库获取源码和教程。
2026-01-21 12:28:09
707
原创 k学长的深度学习宝库:YOLOv11改进:WTConv小波卷积提升大感受野与检测精度(ECCV 2024)
本文介绍了一种新型小波卷积层(WTConv),通过小波变换解决CNN大感受野带来的参数膨胀问题。WTConv利用多频率响应扩展感受野,参数仅对数增长,显著提升了特征提取效率。实验表明,在YOLOv11中应用WTConv构建的C3k2模块,相比基础模型减少了11.4万参数和0.2GFLOPs计算量,实现了有效的轻量化。该方法参数增长平缓、感受野扩大且形状偏差提升,为CNN改进提供了高效易集成的解决方案。
2026-01-12 16:07:50
871
原创 技术前沿 | AMD ROCm开发者生态落地中国,k学长深度学习宝库带你玩转开源AI开发
AMD携手Datawhale与魔搭社区共建"ROCm开发者专区",加速中国AI开发生态本地化进程。此次合作通过开源软件栈降低硬件门槛,结合头部社区资源培育开发者群体,反哺硬件产品市场渗透。"深度学习宝库"作为唯一受邀AI教育品牌亮相,凸显其在开发者培训环节的关键价值,成为连接技术供给与社区平台的重要桥梁。这一战略布局标志着AMD以开发者为中心的开放生态进入实质性落地阶段。
2026-01-05 14:01:22
252
原创 LSTM模型实现光伏发电功率的预测完整数据集代码详细注释
本文介绍了一个基于LSTM的光伏发电功率预测项目。项目通过处理风速、温度等气象数据和电力历史数据,构建了多层LSTM模型(隐藏层64单元)来预测未来发电功率。创新点包括:1)采用差异化的缺失值处理策略;2)使用24小时滑动窗口构建时间序列;3)结合标准化和特征选择优化数据质量。模型训练使用Adam优化器和MSE损失函数,通过验证集评估性能。结果显示该方案能有效预测连续时间序列值,为光伏发电预测提供参考。项目源码和详细教程可在"k学长的深度学习宝库"获取。
2026-01-04 16:00:07
1234
原创 基于bert预训练的微博情感分析6分类模型
本文介绍了一个基于BERT预训练模型的微博文本情感分类系统,能够识别愤怒、开心、中性、悲伤、惊讶和恐惧六种情感。项目采用PyTorch和Hugging Face Transformers框架,利用BERT模型捕捉中文文本的上下文语义,相比传统RNN/LSTM模型表现更优。系统包含数据预处理、模型训练与验证流程,支持模型本地化保存以便后续部署。创新点包括使用预训练语言模型提升小数据泛化能力,实现细粒度六分类,并提供了模型优化方向如尝试其他中文预训练模型、超参数调优和数据增强等。项目配套完整教程和资源,适合深度
2026-01-04 15:49:08
749
原创 基于Word2Vec和LSTM实现微博评论情感分析
本文介绍了一个基于LSTM的中文情感分析项目,通过深度学习技术对社交媒体文本进行情感分类。项目使用jieba进行中文分词和停用词过滤,采用Word2Vec生成词向量作为模型输入。LSTM模型架构包含嵌入层、LSTM层和全连接层,使用交叉熵损失函数和Adam优化器进行训练。创新点包括优化的数据预处理流程、自定义词向量生成和多层LSTM设计。实验结果显示,该模型能有效识别微博文本的情感倾向(正面/中性/负面),可应用于用户情感分析和市场研究。项目提供了完整的数据预处理、模型训练和评估代码。
2026-01-04 15:45:14
1072
原创 结合 Swin Transformer 与 LSTM 的残差自回归模型,用于高精度光学波前时序预测与相位重建
本文提出SwinLSTM模型,将Swin-Transformer融入LSTM细胞内部,通过窗口注意力机制替代传统卷积进行时空融合。创新点包括:1)在门控前使用Swin block进行空间-上下文交互;2)采用残差预测框架输出变化量Δ,提升对光学波前信号的建模能力;3)实现可控教师强制策略,使训练与评估逻辑一致;4)构建面向Zernike系数序列的端到端处理流程,支持从系数到相位图的可视化转换。实验表明,该方法在建模光学波前等时空信号时,相比传统ConvLSTM能更好地捕获长程依赖关系。完整实现代码已在k学长
2025-12-31 16:16:09
544
原创 从零开始构建多模态大模型MLLMfromScratch
本项目从零实现了一个多模态大模型(MLLM),包含Transformer基础架构、Vision Transformer(ViT)视觉模型、GPT-style语言模型(LLM)及多模态融合模块。项目采用模块化设计,完全手工实现核心组件,不依赖现有框架。实验结果显示:ViT在CIFAR-10上达到分类准确率;LLM生成了莎士比亚风格的文本;MLLM实现了基本的"看图说话"功能,但生成描述与真实标注存在差距。项目完整实现了训练和推理流程,提供了单元测试验证和实验结果分析,展示了从底层构建深度学
2025-12-31 16:11:50
989
原创 MiDaS:迈向鲁棒的单目深度估计:混合数据集实现零样本跨数据集迁移,零样本泛化能力”极强,广泛用作预训练 backbone
摘要:MiDaS模型通过跨数据集混合训练和尺度不变损失函数,解决了单目深度估计的数据依赖与泛化难题。其采用ResNet编码器+轻量解码器架构,融合3D电影等多样化数据,显著提升零样本泛化能力。尽管在细节预测和绝对尺度上存在局限,但催生了DPT、AdaBins等改进模型,推动深度估计从相对预测向绝对度量发展,最终演化为Depth Anything等通用型解决方案。该研究为计算机视觉中的三维感知提供了重要范式。(149字)
2025-12-25 16:23:15
520
原创 Monodepth2:自监督单目深度估计的改进-k学长深度学习专栏
摘要:Monodepth v2针对v1版本在无相机运动、遮挡和分辨率不足等场景下的局限性,提出了三大创新方法:最小重投影损失避免遮挡误差,自动掩码排除无效训练数据,全分辨率多尺度预测提升细节精度。尽管在反射区域和复杂边界仍存在缺陷,但该模型显著提升了自监督深度估计的鲁棒性。后续DPT、MiDaS等改进模型通过引入Transformer、多数据集训练等技术进一步提升了性能。更多深度学习资源可访问k学长的深度学习宝库获取。
2025-12-24 18:35:10
939
原创 Monodepth:基于左右一致性的无监督单目深度估计,单目估计的起步-k学长深度学习专栏
Monodepth是一种创新的单目深度估计方法,通过无监督学习实现深度预测。其核心思想是将深度估计转化为图像重建问题,利用双目相机的左右图像进行训练,无需真实深度标注。方法采用编码器-解码器结构预测视差图,并通过三种关键损失函数(外观匹配损失、视差平滑损失和左右一致性损失)来优化模型性能。最大的创新点是引入左右一致性约束,使模型能更准确地理解场景的几何结构。相比传统方法,Monodepth降低了数据获取成本,提高了深度预测的可靠性,适用于自动驾驶、AR/VR等多个领域。
2025-12-23 16:56:57
1001
原创 SAM (Segment Anything Model):万物皆可分割-k学长深度学习专栏
摘要: Segment Anything Model (SAM) 是首个通用分割基础模型,通过大规模预训练(SA-1B数据集,含11亿掩码)实现强大的零样本泛化能力。其核心创新包括:1)可提示分割(点、框等输入生成掩码);2)三模块架构(图像编码器ViT-Huge、提示编码器、轻量解码器);3)实时交互设计。然而,SAM存在高分辨率/小目标处理不足、计算开销大、专业领域泛化有限等缺陷。后续改进模型(如MobileSAM、HQ-SAM、MedSAM)针对轻量化、边界精度、跨领域适配等方向优化,推动分割技术向更
2025-12-18 18:54:06
1002
原创 Mask2Former:用于通用图像分割的掩码注意力掩码变换器,通用分割架构(语义!实例!全景)-k学长深度学习专栏
本文提出Mask2Former,一种基于masked attention的统一分割框架。研究背景源于现有分割任务(语义/实例/全景)的割裂处理,MaskFormer虽提出统一范式但掩码生成能力有限。核心创新包括:1)masked attention机制增强query与像素特征的交互;2)多尺度特征解码器设计;3)端到端任务无关训练。实验表明其在三类分割任务中均达SOTA,但存在计算开销大、小目标分割不足等缺陷。后续工作如MaskDINO、Open-Vocabulary版本等进一步优化了检测能力和开放词汇分割
2025-12-18 18:40:26
1089
原创 SegFormer:使用Transformer进行语义分割,简单而高效的设计-k学长深度学习专栏
SegFormer是一种高效简洁的语义分割框架,通过分层Transformer编码器(MiT)提取多尺度特征,结合极简MLP解码器实现全局与局部信息融合。其创新点在于:1)MiT编码器融合CNN多尺度特性和Transformer全局建模;2)轻量级解码器仅用MLP实现特征融合,无需复杂结构。该模型在多个基准测试中达到SOTA,兼具高效性和泛化能力,但也存在边界细节刻画不足、高分辨率计算压力等缺陷。后续改进模型如EdgeSegFormer、MobileSegFormer等针对性地优化了边界精度和计算效率。
2025-12-17 16:08:12
553
原创 nnU-Net:基于unet的医学图像分割自适应框架,自动配置超参数与结构-k学长深度学习专栏
本文介绍了nnU-Net这一医学图像分割框架的创新设计与应用价值。针对传统医学分割方法泛化性差、调参复杂的问题,nnU-Net通过自配置pipeline实现了网络结构、预处理、训练策略的自动化适配。核心创新包括:1)基于数据特性的自配置网络(2D/3D U-Net及级联组合);2)标准化的训练与推理流程;3)自动模型选择与集成。实验表明,该框架在MSD多数据集上取得领先性能。虽然存在计算成本高、依赖启发式规则等局限,但启发了后续改进方向,如结合Transformer、轻量化设计等。nnU-Net的价值在于将
2025-12-17 16:03:20
548
原创 Swin-UNet:使用 Swin Transformer 替代卷积块,扩大感受野-k学长深度学习专栏
本文提出Swin-UNet,首个纯Transformer架构的医学图像分割网络。通过将Swin Transformer与U-Net对称结构结合,利用移位窗口注意力机制实现全局依赖建模,同时保留跳跃连接以保持局部细节。创新性地采用Patch Merging/Expanding完成上下采样,摆脱了对CNN的依赖。实验表明该方法在医学分割任务中优于混合架构模型,但仍存在依赖预训练、仅支持2D图像、计算效率随分辨率提升而下降等局限。该研究为纯Transformer在医学图像处理中的应用提供了新思路。
2025-12-16 09:15:00
911
原创 TransUNet:Transformer 成为医学图像分割的强大编码器,Transformer 编码器 + U-Net 解码器-k学长深度学习专栏
本文提出TransUNet模型,首次将Transformer与U-Net结合用于医学图像分割。模型采用CNN提取局部特征后送入Transformer编码全局信息,通过U-Net式跳跃连接和级联上采样恢复细节。实验表明其在多器官CT和心脏MRI分割任务上优于传统方法。但存在计算开销大、依赖标注数据、边界恢复不够精细等缺陷,且3D扩展困难,限制了临床应用。该研究为医学图像分割提供了新思路,但仍需优化计算效率和细节处理能力。
2025-12-15 14:21:05
1409
原创 HRNet:深度高分辨率表示学习用于人体姿态估计-k学长深度学习专栏
HRNet是一种高分辨率网络架构,专为人体姿态估计设计。其核心创新在于全程保持高分辨率表征,通过并行多分辨率子网络和重复的多尺度融合机制,实现了更精准的关键点定位。相比传统方法,HRNet避免了高分辨率信息的丢失,使预测结果既清晰又准确。然而,该模型存在计算量大、结构复杂等缺陷,难以部署到轻量级场景。后续研究围绕轻量化改进、多人场景优化、Transformer融合等方向展开,并将HRNet的高分辨率思想拓展到语义分割、目标检测等其他视觉任务中。HRNet在精度上表现优异,但在实际应用中需权衡计算成本和性能需
2025-12-15 14:15:33
690
原创 U-Net++:嵌套密集跳跃连接,多尺度融合增强特征表达,医学影像分割的unet创新-k学长深度学习专栏
医学图像分割模型UNet++的创新与局限 UNet++是针对医学图像分割需求提出的改进模型,通过嵌套密集跳跃连接和深度监督机制解决了U-Net存在的语义鸿沟问题。其核心创新包括:1)重新设计跳跃路径,通过逐级卷积缩小编码器与解码器特征间的语义差距;2)采用密集连接优化梯度流动;3)引入多尺度深度监督提升训练稳定性。实验显示其在多个医学数据集上IoU指标平均提升3.9%。但该模型存在计算成本高、实现复杂、训练资源需求大等缺陷。后续改进包括UNet3+的全尺度连接、Attention机制引入、轻量化改造及Tra
2025-12-14 15:58:59
1095
原创 ResUNet:U-Net 中加入残差块-k学长深度学习专栏
摘要:ResUNet是一种结合U-Net和残差学习的深度学习模型,用于航拍道路提取任务。该模型通过U-Net的"沙漏"结构实现特征提取与细节恢复,并引入残差块的"短路连接"解决深层网络训练难题。其创新点在于用残差块替换普通卷积层,形成双重信息通道,使浅层细节与深层语义特征更好融合。相比传统U-Net,ResUNet具有训练更轻松、信息流通更顺畅、参数更少性能更强三大优势,特别适合处理道路提取中的拓扑复杂性、尺度多样性和类内差异等挑战。模型结构包含编码器(特征压缩)和解
2025-12-04 15:46:59
821
1
原创 Attention U-Net:引入注意力门机制,胰腺影像分割必看经典-k学长深度学习专栏
它的核心是加入了“注意力机制”,让模型更敏感地捕捉前景像素(比如我们要分割的目标区域)。注意力U-Net就像戴上“透视镜”,先看大图大致方向(编码),然后聚焦猫的局部细节(注意力门),最后把猫完整画出来(解码)。输入:模型接收一个输入图像,尺寸通常表示为 H×W×D H \times W \times D H×W×D(高度、宽度、深度),深度可能代表通道数(如RGB或医学影像的模态)。每层都会用卷积(W)和激活函数(比如ReLU)处理数据,同时图像尺寸会缩小一半(比如从H1到H4,尺寸变成原来的1/8)。
2025-12-02 17:46:25
514
1
原创 DeepLab v3+:基于空洞可分离卷积的编码器解码器在语义分割中的应用-k学长深度学习专栏
DeepLab v3+是一种先进的语义分割模型,通过融合空洞卷积、ASPP模块和轻量解码器,解决了多尺度上下文感知与边界细化的矛盾。其创新点包括:1)利用ASPP模块捕捉多尺度语义信息;2)引入解码器结构恢复边界细节;3)采用深度可分离卷积提升效率。该模型采用"编码器-解码器"架构,编码器负责全局语义理解,解码器专注于边界优化。然而存在计算复杂度高、边界细节有限、上下文建模固定等缺陷。后续改进模型在轻量化、边界增强、上下文建模等方面进行了优化,如BiSeNet、HRNet和Transfo
2025-12-01 17:18:10
953
原创 Mask R-CNN:当时的实例分割基线-k学长深度学习专栏
摘要:Mask R-CNN是实例分割领域的里程碑式模型,通过三个关键创新解决了检测与分割的统一问题:1)在Faster R-CNN基础上增加掩码预测分支;2)采用RoIAlign技术消除量化误差;3)解耦分类与掩码预测任务。该模型采用骨干网络+RPN+三分支头部结构,实现了像素级分割效果。虽然存在推理速度慢、掩码分辨率低等局限,但为后续PANet、Cascade Mask R-CNN等改进模型奠定了基础,推动了实例分割技术的发展。(149字)
2025-11-28 19:18:35
516
原创 遥感图像分割方向怎么学
摘要:本文分享了一位研一学生从深度学习入门到进阶的经验。针对"跑通代码但不理解"的困境,作者提出三步法:1)模块化拆解网络结构;2)聚焦遥感图像分割核心模块;3)从简单修改入手优化模型。文章推荐了6个月进阶路线:1-2月夯实PyTorch基础,3-4月精读领域论文,5-6月实践创新。作者强调通过拆解基础模块、调试参数等实践,可以在3-6个月内实现从"会跑代码"到"能改模型"的突破。文末推荐了具体学习资源网站。
2025-11-28 16:34:04
928
原创 PSPNet :引入金字塔池化-k学长深度学习专栏
PSPNet提出了一种创新的金字塔池化模块(PPM),通过多尺度上下文聚合解决语义分割中的三大挑战:上下文不匹配、类别混淆和尺度极端问题。该网络在ResNet主干上构建1×1/2×2/3×3/6×6四个层级的池化分支,融合全局与局部特征,配合深度监督策略显著提升性能。在ADE20K、PASCAL VOC和Cityscapes等基准上取得突破性成果,其核心思想启发了DeepLab、UPerNet等后续模型。虽然存在计算开销大、边界模糊等局限,但PPM已成为语义分割领域的基础模块范式。
2025-11-27 14:29:04
690
原创 V-Net:三维医学影像分割的全卷积神经网络-k学长深度学习专栏
V-Net是一种专为3D医学图像分割设计的深度学习模型。它通过V型网络结构解决了传统2D CNN处理3D医学数据的局限性。V-Net的创新在于:1)采用Dice系数作为损失函数,有效解决医学图像中前景与背景极端不平衡的问题;2)引入残差学习和横向连接,提升训练效率和分割精度;3)使用数据增强解决医学数据稀缺问题。在PROMISE 2012数据集上的实验表明,V-Net能快速准确地进行3D医学图像分割,为临床诊断提供可靠支持。
2025-11-10 07:45:00
1293
原创 SegNet:一种用于图像分割的深度卷积编码器解码器架构-k学长深度学习专栏
本文介绍了语义分割技术及其代表性模型SegNet的架构与创新点。语义分割旨在为图像每个像素分配类别标签,实现场景细粒度理解。SegNet采用编码器-解码器结构,核心创新在于解码器利用编码阶段的最大池化索引进行非线性上采样,无需学习额外参数,能高效恢复特征图细节。相比传统CNN和反卷积网络,SegNet通过保存池化索引实现精确边界恢复,具有参数少、内存占用低等优势。文章详细解析了SegNet的编码器(基于VGG16卷积层)、解码器(上采样+卷积)和分类层结构,并对比了DeepLab等模型的空洞卷积技术。Seg
2025-11-09 16:10:36
867
原创 U-Net:用于生物医学图像分割的卷积网络,经典中的经典,后续所有创新改进的起点-k学长深度学习专栏
摘要:本文介绍了医学图像分割的三代技术演进。传统CNN只能进行“有/无肿瘤”的二分类;Ciresan的滑动窗口法通过局部补丁预测实现像素级定位,但效率低下且面临感受野与精度的矛盾;全卷积网络(FCN)采用编码-解码架构,通过收缩路径提取语义特征、扩张路径恢复空间细节,并利用跳跃连接保留精确定位信息,实现高效精准的端到端分割。FCN的U型结构通过卷积、池化、上采样等操作,在保持上下文感知的同时完成像素级分类,解决了医学图像分析中全局与局部信息平衡的关键问题。(149字)
2025-11-09 10:30:00
642
原创 FCN:用于语义分割的卷积网络,语义分割开山作-k学长深度学习专栏
摘要:本文探讨了全卷积网络(FCN)在语义分割中的应用。传统计算机视觉方法依赖人工设计特征,难以处理复杂场景。FCN通过将分类网络改造为全卷积形式,实现端到端的像素级预测,解决了全局语义与局部细节的矛盾。网络通过转置卷积上采样和多层特征融合(FCN-32s、FCN-16s、FCN-8s),逐步提升边界精度。实验表明,FCN在高效推理的同时,能结合深层语义与浅层细节,实现更精细的分割效果。
2025-11-08 15:38:59
998
原创 RT-DETR:在实时目标检测中,号称击败当时的YOLO ,DETR的重大的创新改进-k学长深度学习专栏
RT-DETR:实时端到端目标检测新范式 针对YOLO系列依赖NMS导致效率瓶颈和DETR计算成本高的问题,RT-DETR通过三大创新实现突破: 高效混合编码器:分离同尺度交互(高层特征使用注意力)与跨尺度融合(低层特征采用卷积),降低60%计算量; 最小不确定性查询选择:联合评估分类置信度与定位准确性,筛选高质量初始查询,提升3%AP; 动态解码器调节:支持推理时灵活裁剪层数(4-6层可调),无需重训练即可实现108FPS@53.1%AP,速度超YOLOv8 21倍。 该设计首次实现端到端检测器在精度和速
2025-11-07 10:30:00
730
原创 SSD:多尺度检测
SSD(Single Shot MultiBox Detector)是目标检测领域的里程碑模型,通过多尺度特征图和预设默认框的创新设计,在速度与精度之间取得平衡。其核心思想是在不同分辨率特征图上同时检测目标,并预先设置不同形状和大小的默认框,让网络只需微调即可预测目标位置。相比Faster R-CNN更快速(59 FPS),相比YOLOv1更精准(72.1 mAP)。但存在小目标检测差、默认框不够灵活等缺陷,后续改进模型如RetinaNet、YOLO系列和EfficientDet等进一步优化了特征融合和检测
2025-11-06 16:19:21
1007
原创 Fast R-CNN:开山鼻祖模型的进化,引入ROI Pooling
从 Fast R-CNN 的 秒级 → Faster R-CNN 的 百毫秒级,真正接近实时。Faster R-CNN 的关键在于:把候选框生成这一步,也交给 CNN 来做。2、 Fast R-CNN 的整体流程(对比 R-CNN)4、Faster R-CNN 的改进(核心创新:RPN)🚀 Fast R-CNN 的动机(为什么提出它?🔙 回顾 R-CNN 的问题(为什么需要改进?3、Fast R-CNN 仍然存在的缺陷。源码、配套笔记&讲解视频,点击文末名片。1、Fast R-CNN的背景和动机。
2025-11-06 16:17:40
599
原创 R-CNN:用于精确目标检测和语义分割的丰富特征层次结构,两阶段检测开山鼻祖
在 R-CNN 出现前,计算机视觉中的目标检测主要依赖于 人工设计的特征(如 SIFT、HOG)加上传统分类器(如 SVM)。以前的做法:像个“笨巡警”,拿着放大镜在整张图片上滑动,一点点看是不是有目标(滑动窗口法),又慢又容易漏。R-CNN 的做法:把每个候选区域丢进一个已经在 ImageNet 上训练好的 CNN,让它提取深度特征。以前的做法:靠“手工特征”(HOG、SIFT),就像画家用简单线条描物体,但往往不够丰富。R-CNN 的做法:先用一个“聪明助手”给你推荐“可能藏人的地方”。
2025-11-05 19:50:34
111
原创 DMDiff(2025):一种基于SAR光学数据融合的双分支多模态条件引导扩散模型-k学长深度学习专栏
DMDiff提出了一种基于扩散模型的多模态遥感图像去云方法,通过双分支网络分别提取SAR的结构信息和光学图像的光谱特征,再利用跨模态注意力机制实现特征融合。创新性地采用IAP策略直接预测无云图像而非噪声,有效解决了传统方法在遥感图像处理中易出现的光谱失真问题。实验表明该方法在PSNR等指标上显著优于现有技术,但存在计算量大、生成速度慢等不足。未来可结合加速采样策略和几何约束进一步优化。
2025-11-05 18:31:14
298
原创 Former-CR首次将基于Uformer架构用于SAR-光学厚云去除-k学长深度学习专栏
摘要: 针对地球观测中云层遮挡导致的光学影像质量下降问题,研究提出Former-CR模型,创新性地结合SAR雷达与光学影像的多模态数据,通过U型Transformer架构实现云层去除。模型采用双分支设计(重建分支+残差分支),利用局部增强窗口注意力(LeWin)兼顾全局结构与局部细节,并引入感知损失提升视觉真实性。实验表明,Former-CR在厚云场景下的修复效果优于传统方法,尤其在SSIM等指标上表现突出。然而,模型存在计算复杂度高、训练资源消耗大等不足,未来需进一步优化效率与泛化能力。
2025-11-05 10:45:00
1494
原创 DSen2-CR:利用深度残差神经网络和SAR光学数据融合技术实现Sentinel-2影像的云层消除-k学长深度学习专栏
DSen2-CR是一种融合SAR雷达与光学影像的深度学习去云方法。主要创新包括:1)首次将能穿透云层的SAR与光学数据结合,利用SAR提供云下地物结构;2)基于ResNet构建稳定残差网络,避免GAN的不稳定性;3)提出云自适应损失函数(CARL),在云区强制学习无云目标,在晴空区保持原图不变;4)构建全球真实云数据集SEN12MS-CR。不足在于简单拼接的异构数据融合方式易导致特征错位,且缺乏显式配准机制和全局建模能力。该工作开创了多源融合去云方向,启发了后续改进模型。
2025-11-04 16:27:24
670
原创 CloudTran++:基于轴变换网络的多时相卫星图像云层去除改进方法-k学长深度学习专栏
CloudTran++提出了一种创新的多时相遥感图像去云方法。针对现有模型忽略时间维度动态关系的问题,该模型通过时序注意力(TAM)和跨时间交互(CTB)模块,使Transformer能够理解时间序列中云与地物的演变规律。采用双解码器结构(Inner/Outer Decoder)分别处理时序细节和整体趋势,并引入特征对齐机制解决多时相差异。模型首先在低分辨率下完成时序分析,再通过上采样网络恢复高分辨率细节。相比传统方法,CloudTran++能够智能选择最优参考帧,实现时空一致的云去除效果,同时保持轻量高效
2025-10-31 10:00:00
861
【计算机视觉】基于OpenCV与U-Net的曲线车道线检测系统:融合多特征提取与图像分割的自动驾驶路径识别方法
2025-12-01
深度学习乐园项目案例分享:A074-基于RMBG大模型的AI抠图证件照换背景带GUI
2025-01-25
深度学习乐园项目案例分享:A073-基于PP-OCR和ErnieBot的视频字幕提取和问答助手
2025-01-25
深度学习乐园项目案例分享:A066-WaveNet模型实现电力预测
2025-01-23
深度学习乐园项目案例分享:A061-TCN模型实现电力数据预测
2025-01-22
深度学习乐园项目案例分享:A059-MobileViT模型实现图像分类
2025-01-22
深度学习乐园项目案例分享:A057-PCC Net模型实现行人数量统计
2025-01-22
深度学习乐园项目案例分享:A030-DIN模型实现推荐算法
2025-01-22
深度学习乐园项目案例分享:A029-AlexNet模型实现鸟类识别
2025-01-22
深度学习乐园项目案例分享:A028-引入SE模块和注意力机制解决VGG16过拟合实现新冠肺炎图片多分类
2025-01-22
深度学习乐园项目案例分享:A027-CNN-LSTM住宅用电量预测
2025-01-22
深度学习乐园项目案例分享:A056-KerasCV YOLOv8实现交通信号灯检测
2025-01-21
深度学习乐园项目案例分享:A053-SSD融合FERPlus模型实现面部情绪识别
2025-01-21
深度学习乐园项目案例分享:A050-银行卡数字识别
2025-01-20
深度学习乐园项目案例分享:A049-基于opencv的人脸闭眼识别疲劳监测
2025-01-20
深度学习乐园项目案例分享:A048-基于opencv答题卡识别判卷
2025-01-20
深度学习乐园项目案例分享:A022-GAN模型实现二次元头像生成
2025-01-16
深度学习乐园项目案例分享:A021-efficientnet-b3模型实现动物图像识别与分类
2025-01-16
A020-LSTM模型实现电力数据预测
2025-01-16
深度学习乐园项目案例分享:A017-resnet模型实现瓜果蔬菜图像识别分类苹果香蕉梨西红柿大豆菠菜玉米黄瓜葡萄橙子菠萝石榴西瓜萝卜共4个G数据
2025-01-14
深度学习乐园项目案例分享:A026-DeepFM模型预测高潜购买用户
2025-01-15
深度学习乐园项目案例分享:A025-fasterRCNN模型实现飞机类目标检测
2025-01-15
深度学习乐园项目案例分享:A023-CNN模型实现mnist手写数字识别
2025-01-15
深度学习乐园项目案例分享:A019卫星图像道路检测DeepLabV3Plus模型
2025-01-14
深度学习乐园项目案例分享:A018-TransUNet模型创新图像分割实战
2025-01-14
深度学习乐园项目案例分享:A016-基于keras的停车场车位识别
2025-01-13
深度学习乐园项目案例分享:A008-基于YOLOv8-deepsort算法的智能车辆目标检测车辆跟踪和车辆计数
2025-01-12
深度学习乐园项目案例分享:A011-BertForSequenceClassification模型实现微博文本情感三分类提升
2025-01-12
snet50模型的船型识别与分类系统研究
2025-01-12
深度学习乐园项目案例分享:A006-BiLSTM和CRF模型实现NER中文命名实体识别完整源码可运行
2025-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅