- 博客(1632)
- 资源 (11)
- 收藏
- 关注

原创 干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式获取论文:关注并回复“水稻”计算机视觉研究院专栏Column of Computer Vision Institute小农户在全球粮食供应中发挥着重要作用。随着智能手机越来越普及,它们使小农能够以非常低的低成本收集图像。PART/1摘要在本研究中,研究者提出了一种有效的深度卷积神经...
2024-01-07 10:30:55
1085

原创 YoloV8与ChatGPT互通,这功能是真的强大!
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式参考地址:https://github.com/ultralytics/ultralytics计算机视觉研究院专栏Column of Computer Vision Institute现在的ChatGPT都是输入文字、图片或者语音,那如果将检测网络或者更上层一点的东西,把视觉与ChatG...
2023-07-12 08:26:47
522
转载 RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集
因此我们提出了 RoboTwin 2.0,提供基于多模态大模型与仿真在环的自动化专家代码合成方案,开源了含 731 个,147 类带丰富标注物体的 RoboTwin 物体数据集(RoboTwin-OD),并基于两者构建了支持 5 款本体与 50 个任务的大规模域随机化仿真双臂操作数据合成器与评测基准集。我们开源了 50 个任务的 RoboTwin 2.0 代码,预采集 100,000 + 条多本体域随机化操作数据,以及完整的 RoboTwin-OD 大规模丰富语义数字资产库,以及用户友好的使用文档。
2025-07-08 09:30:32
6
转载 遥感新方向!热红外视频卫星空中民航监视,首届挑战赛正在火热进行!
竞赛数据由国防科技大学团队和武汉大学联合开发的基于热红外卫星的IRAir数据集、基于landsat卫星的IRSatVideo-LEO数据集和基于武汉一号卫星的实测热红外视频卫星数据作为训练、验证、和测试数据集。为探索热红外卫星辅助民航空管的可行性,国防科大于2024年构建了首个热红外卫星视频空中民航目标数据集IRAir,并与近期联合武汉一号卫星研制团队举办首届红外视频卫星空中动目标检测挑战赛。SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测。
2025-07-04 19:38:58
15
原创 基于YOLOv11算法的无人机影像小目标检测CF-YOLO
然而,由于不同的输入特征对网络的贡献不同,我们使用三明治融合模块对每个特征分支进行加权融合,使模型能够根据特征的重要性自主选择,并有效整合上下文信息。此外,考虑到特征图越大,包含的小目标信息越丰富,我们专门添加了一个小目标检测头,将原来的。从多尺度融合的角度改善了小目标的检测性能。因此,本研究不同于上述工作,专注于解决小目标检测中的特征信息丢失问题,并系统探索多尺度特征融合的优化潜力。从无人机视角捕获的图像中,目标尺度差异显著且存在大量缺乏细节信息的小目标物体,这对目标检测算法的性能产生了显著影响。
2025-07-03 10:00:55
676
转载 YOLO卷不动了,深度学习目标检测还有哪些方向能做?
论文提出RoboFusion框架,基于预训练SAM得到SAM-AD以适配自动驾驶场景,通过AD-FPN实现特征对齐,用DGWA模块融合深度信息与图像特征并降噪,再经自适应融合机制动态调权重,增强特征鲁棒性,提升复杂环境下多模态3D目标检测性能。论文提出Mr. DETR,通过多路线训练机制改进DETR,同时进行“一对一”和“一对多”预测,加速收敛并提升检测精度,推理时移除辅助路线,不影响模型架构和推理成本。,我都统一打包完毕,分享给大家,尤其是无GPU无指导的单兵们,希望可以有所帮助。
2025-07-02 09:59:06
21
转载 录用率仅 22.1%!吐血整理了 100篇 CVPR 爆火论文
顶级高校(如MIT、斯坦福)及实验室(如FAIR、DeepMind)已经将CVPR录用作为科研潜力的关键指标。“今年视觉 - 语言与 3D 生成的交叉创新,将重构机器人感知、医疗影像分析的技术框架。大厂算法岗招聘 JD 明确标注 “顶会论文优先”,字节、英伟达等企业薪资溢价超 30%!论文成果,冲刺清华、CMU 等顶尖院校博士成功率提升 60%,导师抢着要!(2,878篇/13,008投稿),竞争激烈程度创历史新高。,申请国家级项目、科研基金更有底气!名额有限,先到先得(手慢无!名添加学术顾问微信,
2025-07-01 09:30:33
22
转载 AIGC实战工业缺陷检测:从原理到代码
前面已经详细介绍过人机交互以及通过对话提取需求的原理与实现方式,且此案例将会直接基于前面的内容进行方案设计,因此在此案例中不再详细介绍人机交互功能和需求提取的部分,而是重点介绍 AIGC 在机器视觉中的其他重要应用功能。特别是,如果系统部署在硬件资源充足的环境中,则可以实现实时自动学习,从而进一步优化系统的性能和用户体验。注意:AIGC 融合传感器的案例实现完全基于检索式对话系统的方式,而 AIGC 在机器视觉场景中的应用由于涉及较多的用户主观感受,因此无法完全依赖检索式对话系统进行用户需求的直接提取。
2025-06-30 09:30:21
30
原创 YOLO-IHD:面向室内无人机的改进型实时人体检测系统(实验全网最全)
新模型性能的提升归因于其优化的卷积层和注意力机制,能够处理来自室内环境的复杂视觉数据,从而在灾难响应和室内救援等关键场景中实现更可靠的操作。传统检测方法依赖手动设计的特征,在无人机应用中面临显著挑战,包括对光照条件、角度和遮挡的敏感性,以及复杂背景处理的困难。室内场景给无人机带来了独特的困难,包括空间受限、光照条件多变和背景复杂,这使得有效的人体检测成为一项至关重要的任务。在室内环境中,这可能意味着识别和区分人体所需的关键特征的丢失,尤其是在拥挤或复杂的场景中。,创建专门针对室内无人机操作挑战的变体。
2025-06-26 19:02:15
689
转载 无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
为了减少激活值的内存消耗,梯度检查点(gradient checkpointing)方法在 forward 时只储存每一层网络的输入,而不储存该层的中间值。长序列训练对于模型的长序列推理等能力至关重要。我们在单张 A800-80GB GPU 上测试了不同大小的模型,StreamBP 的最大 BP 序列长度为标准 BP 的 23-36 倍,梯度检查点的 2.5-5.5 倍。不同于梯度检查点,StreamBP 避免储存单层的完整激活值,而将单层的 BP 过程进行线性分解,序列化计算并累加。
2025-06-25 11:29:03
17
转载 多模态融合原来这么好发论文?看完我像被“点醒”,太赞啦!
各位如果想快速出成果,不妨从这些角度入手。论文提出FusionSight,通过融合雷达和图像数据,利用ViT提取图像特征,CNN处理雷达数据,并通过FFMT整合特征,实现多模态目标检测和分类,为视障人士提供实时导航辅助。论文提出OGP-Net,通过多视图对比学习和知识蒸馏,融合RGB和IR图像进行语义分割,同时保留模态共享和特定信息,提升多模态和缺失模态场景下的性能。比较火的可解释多模态融合,在原来模型里加个“说明书”,让模型融合文字、图像等数据时,能把决策过程说明白,既提升性能又不“黑箱”。
2025-06-25 11:29:03
19
转载 RICE-YOLO:基于改进YOLOv5和无人机图像的田间水稻穗检测
通过生成一系列包含检测到的稻穗的边界框,并将每个框中的稻穗数量与人工标注结果进行对比,他们证明了该系统在田间水稻检测和计数中的准确性。因此,针对无人机拍摄的稻穗图像中存在的遮挡、密集分布和小目标问题,提出一种新颖的检测方法,可部署在无人机平台上,用于未来田间应用中稻穗的实时检测。使用无人机拍摄稻田照片时,较高的拍摄角度和较广的覆盖范围,会导致稻穗在拍摄图像中显得较小,还会使图像边缘物体产生角度畸变,造成稻穗严重遮挡和密集排列。,以提高稻穗检测效率,并对田间智能手机拍摄的稻穗图像进行分类。
2025-06-20 12:15:16
80
转载 大模型赛道白热化!解锁6大前沿热点,顶会论文手到擒来
实验表明,REWARDAGENT在现有的奖励模型基准测试和真实世界的下游任务中均显著优于传统的奖励模型,并且能够有效提升LLMs在各种自然语言处理基准测试中的性能。实验表明,GPT-FL 在模型测试精度、通信效率和客户端采样效率方面均优于现有的联邦学习方法,并且无论目标数据是否在预训练生成模型的领域内,都能显著提升性能。包括风险类型,分析在微调过程中可能出现的风险,例如模型生成有害内容、隐私泄露、对抗攻击等和风险量化方法,用于衡量这些风险的具体指标和方法,帮助研究人员和开发者更好地理解和管理风险。
2025-06-19 09:30:34
28
原创 YOLO-Drone:一种用于微型无人机目标检测的优化YOLOv8网络
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://www.mdpi.com/2079-9292/12/17/3664计算机视觉研究院专栏Column of Computer Vision Institute随着无人机在商业和工业领域的广泛应用,无人机检测在公共安全等领域受到越来越多的关注,无人机目标检测技术也随之快速发展。然而,无人机尺寸小、空域背景复杂、光照条件多变等问题,仍为此领域的研究带来重大挑战。PART/1 概述
2025-06-16 09:00:35
574
原创 基于YOLO的用于无人机与鸟类检测分割数据集,适用于深度学习和机器学习算法
噪声可通过多种方式实现。借助训练过程中马赛克子块的独特特性,算法在开发有效检测小型目标(如鸟类或无人机)的稳健能力方面获得显著优势,即便这些目标距离相机很远,从而确立了本数据集作为推进具有挑战性场景中目标检测能力的宝贵资源的地位。在实时画面中检测鸟类和无人机等目标的任务中,分割后的数据集尤为宝贵,因为对目标的精细分割能让算法更深入地理解目标的视觉特征,从而提高检测精度和性能。每个包含检测到的鸟类或无人机的视频帧,都经过了从背景中分割目标的精细处理,形成了高精度的表示,能显著提升算法在实时画面中的检测能力。
2025-06-15 12:03:21
548
原创 无人机建筑行业:基于YOLOv7的建筑外墙缺陷检测
与YOLOv7相比,BFD-YOLO的精度和mAP@.5分别提高了2.2%和2.9%,同时保持了相当的效率。这些方法依赖于检查员的专业知识和经验,这是主观的、危险的和低效的。由于建筑数量的增加和规模的扩大,人工目视检查方法已不足以满足大规模检查的要求。作为结构损伤检测的一个组成部分,建筑外墙缺陷的检测可以使政府和管理层准确了解建筑外墙的综合状况,从而有助于制定合理的维修方案。在神经网络的模型训练中经常需要大量的数据。然而,获取建筑外墙缺陷的图像相对困难,并且在收集的数据中存在类别不平衡的问题。
2025-06-14 11:02:17
541
原创 YOLO-SG:基于轻量级上采样算子和注意力机制的海底地形单元识别与分割算法
此外,它集成了一个轻量级通用上采样算子,构建了新的特征融合网络,从而提升了模型的特征融合与表征能力。此外,海底地貌单元具有轮廓复杂的特点,在将数字高程模型(DEMs)转换为海底地形图的过程中,不同海底地貌单元之间显著的尺度差异不可避免地导致小目标的存在。可知,与YOLOv8l-Segment相比,所提出的YOLO-SG模型在检测精度上实现了显著提升:具体而言,mAP(平均精度均值)值提高了14.7%,海山、海底小山和海底洼地的AP值分别提升了14.9%、14.6%和18.4%。
2025-06-14 11:02:17
1444
原创 OSDDY:基于嵌入式系统、借助深度YOLO算法的小型无人机目标监视检测系统
该结构采用上采样技术,将不需要的光谱图像改进为现有信号,并对特定位置的特征进行重新缩放,这显著增强了小目标的检测能力,实际提升了采样率。作为目标检测系统,其处理架构需将机器视觉算法与合作提示整合到两架多旋翼无人机的飞行测试中,该方法在复杂环境下的目标范围脆弱性检测中兼具精度与鲁棒性。)方法来检测多目标。指出,无人机在民用和军事领域的多种应用中,通过视觉摄像头实现合作目标的帧序列跟踪与检测(基于深度学习)。的检测准确率,各类损失分析表明模型基于条件概率构建了可靠的置信度评分机制,确保目标边界框的精准预测。
2025-06-11 14:31:05
1445
转载 质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
值得注意的是,该模型在解决需要 31 步的问题(N=5)时能达到近乎完美的准确率,却无法解决仅需 11 步的过河谜题(N=3)。分析表明,随着问题复杂度的增加,正确的解会系统性地出现在思维的后期,而错误的解则不然,这为理解推理模型 (LRM) 中的自我修正机制提供了定量层面的见解。目前,我们尚不清楚近期基于强化学习的思维模型所观察到的性能提升是归因于「更多接触已建立的数学基准数据」,还是归因于「分配给思维 token 的显著更高的推理计算能力」,又或是归因于「基于强化学习的训练所开发的推理能力」?
2025-06-10 09:30:49
548
转载 YOLO小目标检测效果不佳?速收这10个涨点秘籍!
本文对YOLO目标检测模型(v5至v11)进行了广泛的评估,比较了它们在不同硬件平台和优化库上的性能,研究了推理速度和检测精度,并分析了模型对图像中小目标的敏感性。论文提出了一种名为LAM - YOLO的小目标检测模型,针对无人机图像中小目标密集、重叠及光照变化等问题,通过引入光照遮挡注意力机制(LAM)、改进的SIB - IoU损失函数以及辅助小目标检测头等方法,显著提升了在复杂背景下的检测精度和收敛速度。论文了,但是如果你在写论文时还是想不出idea,缺乏数据集,不知道如何选择期刊投稿,那么可以找到。
2025-06-10 09:30:49
113
原创 算法优化:基于改进的YOLO检测和双边分割网络实时识别
这种紧凑且集成化的设备设置,使得所提出的煤岩识别模型能够直接应用于实际煤岩监测场景,提供智能图像分析支持,助力矿山生产。中可将精度损失降至最低。在四个实际煤岩工作面的实验结果证实了所提模型的有效性,展现出在煤岩图像识别中更好的准确性与效率平衡,为煤矿智能化进一步发展提供支持。优化所取得的成果,如平均帧率大幅提高以及标准差降低,进一步增强了该模型在实际采煤工作面的适用性,并为煤矿智能化的进一步发展提供了支持。次操作,支持开发的煤岩图像语义分割模型直接在设备上运行,实现对采集图像的实时处理和分析。
2025-06-05 17:02:55
599
转载 重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
但是,在 Overlap RL 系统中,每一个批次的训练数据依然要求全部由同一个版本模型生成,生成时间依然会被最长的输出所阻塞,并不能解决同步 RL 训练效率低的问题。staleness 表示当采用一个批次的数据进行模型训练时,生成最旧的一条数据的模型版本和当前更新的模型版本之间的版本差(比如,一个批次中最旧的一条数据由 step 1 产生的模型输出,当前模型由 step 5 产生,则该批次 staleness=4)。除了强大的 AReaL-boba² 训练系统,团队也带来了训练数据、训练脚本和评估脚本。
2025-06-05 17:02:55
52
原创 基于改进的YOLO检测和双边分割网络的煤岩界面实时识别
但需要注意的是,随着图像噪声水平的上升,识别率会显著下降。张指出,不同类型的煤和岩石具有不同的纹理特征,因此在识别煤岩图像时考虑了它们的灰度和纹理特征。然而,只有当煤和岩石的颜色存在明显的灰度差异时,煤岩界面识别方法的准确率才会显著提高。第一步,通过筛选现场采集的图像来建立数据集。煤岩图像增强技术的评估标准对于衡量此类方法的有效性至关重要,这些标准用于量化增强煤岩图像视觉特征的质量和效果。在本研究中,通过整合三项性能指标(包括熵值、总边缘强度和图像边缘数量)的客观评估标准,对增强后的图像质量进行量化。
2025-06-03 17:31:29
685
原创 YOLO-YSTs:一种基于改进YOLOv10n的实时农田害虫检测方法
通过即插即用的方式,将不同的操作集成到一个统一的框架中,为模型提供了更大的灵活性。为了让模型在训练过程中能更好地学习害虫特征,训练集和验证集都包含了来自所收集数据集和公开数据集的图像,而测试集则单独保留,用于评估模型在不同数据集上的泛化能力和性能。):这一层会重新排列特征图的元素,将空间信息转换到深度维度,在保留通道维度上所有信息的同时增加特征图的深度,从而避免了传统下采样方法中常见的信息丢失问题。模型的改进,有效提高了黄色粘虫板上害虫的检测精度,并且该模型在边缘移动平台上部署时表现出良好的检测性能。
2025-06-02 12:48:03
980
原创 YOLO-ESFM:一种用于海面目标检测的多尺度YOLO算法
与红外和雷达图像相比,用于海上目标和船舶识别的可见光图像拥有丰富色彩和纹理信息,获取成本较低且分辨率高,更适用于海上目标检测(李等人,2024)。未来,我们计划进一步优化算法,同时扩充和完善数据集,覆盖更广泛的海事场景、船只类别、海面目标尺度,以及更多样化的海洋目标类别。基于ESFM模块,构建了一种新的骨干和头部网络,即YOLO-ESFM网络。ESFM受Res2Net(高等人,2021)和ELAN(王等人,2022)结构设计理念的启发,我们提出了一种新型高效的尺度融合模块(ESFM),如下图所示。
2025-06-02 12:48:03
619
原创 YOLO-HPSD:一种基于YOLOv10的高精度船舶目标检测模型
为了优化特征融合过程,将迭代注意力特征融合(iAFF)与主干网络中的C2F模块相结合,从而开发出了一种新型的C2F_iAFF模块,该模块利用了多尺度通道注意力机制。在本研究中,通过用C2f_iAFF模块替换C2f模块,改进后的模型进一步强化了多尺度特征的融合能力,在保留原有结构优势的同时提升了检测性能。随着YCLO系列模型的不断发展,YOLOv10算法在前几代的基础上,继承了其出色的检测精度和低计算复杂度,同时对核心模块进行了全面优化,如网络骨干结构、特征提取方法和损失函数。BiFPN模块的结构图如下图。
2025-06-01 17:30:25
843
原创 CSGD-YOLO:一种基于YOLOv8n的玉米种子发芽状态检测模型
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式计算机视觉研究院专栏Column of Computer Vision Institute种子质量检测对保障粮食安全与稳定至关重要。为准确检测玉米种子在纸床发芽试验中的发芽状态,本研究提出一种基于YOLOv8n的玉米种子发芽状态检测模型(CSGD-YOLO)。PART/1 概述 首先,为缓解传统模型存在的复杂性问题,设计了轻量化空间金字塔池化快速结构(L-SPPF)以增强特征表达能力;同
2025-05-30 10:30:46
887
原创 SCDYOLO:一种高效道路裂缝检测的目标检测新方法
由于本研究中使用的数据集的图像背景比例高,噪声显著,加上需要识别狭窄和细长的道路裂缝,因此在算法模型中加入了通道融合可变形卷积注意机制(然后选择小于或等于聚焦宽度的卷积核,并调整它们的分布以进行信息融合,并不要求聚焦长度小于当前特征图的大小。SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测。数据集,并进行了广泛的数据增强,以确保模型在不同道路损坏场景和地理区域的泛化性和鲁棒性。关注机制,提高了特征提取的准确性,促进了特征间的协同融合。
2025-05-29 10:03:44
984
转载 2025多模态好发论文的方向!
本文提供了一个关于多模态推理方法的系统性综述,将这些方法分为两个层次:以语言为中心的多模态推理和协作式多模态推理,分析了这些方法的技术演变,讨论了其固有挑战,并介绍了评估多模态推理性能的关键基准任务和评估指标。该论文提出了一种名为MTV的方法,旨在解决多模态领域中大型多模态模型(LMMs)在多示例上下文学习中的限制问题,通过在LMM的注意力头中压缩多示例上下文为紧凑的隐式表示,从而克服了这一限制。:多模态大模型、多模态预训练、多模态生成、多模态感知、多模态推理、多模态数据高效学习、多模态可解释。
2025-05-28 10:03:57
184
转载 2025深圳无人机展亮点爆棚!芒果智能科技脱颖而出
在某城市试点,单架无人机日均巡查50平方公里,问题发现效率提升 8倍,AI生成工单使处置周期从7天缩至48小时。2025年深圳国际无人机展现场,人头攒动,中外友人纷至沓来,展馆内热闹非凡。该引擎基于轻量化深度学习,支持150+类目标实时识别,端侧运行技术让弱网环境也能毫秒级响应,引得国内外专业人士频频点头称赞。某工地应用后,隐患发现率提升60%,工程管理效率提高30%。试点路段事故处理时间缩短25%,通行效率大幅改善。芒果智能科技以技术驱动创新,未来将继续深耕 AI 视觉,为更多行业带来智能解决方案。
2025-05-27 20:30:21
46
原创 EMR-YOLO:高效海上救援目标识别算法研究
卷积核的感受野被扩大,以捕捉更广泛的上下文信息。同时,为了提升模型的识别性能,颈部部分采用了PANet架构,增强了网络融合不同尺度目标特征的能力,并用于传播特征信息和合并不同层级的特征。展示了训练集的基本信息,分为四个部分:左上角为类别数量,左下角为目标中心点在图像中的位置,右上角为目标框的大小,右下角为目标相对于原始图像的宽高比。模块通过将空间位置信息嵌入到通道信息中,来改进特征表示,使网络能够充分考虑特征图通道与空间位置之间的关系,在融合过程中自适应地调整每个特征的重要性,并忽略无关背景信息的干扰。
2025-05-22 22:01:12
1396
原创 YOLO-SLD:基于注意力机制改进的YOLO车牌检测算法
例如,可以专注于车牌内的文本识别,或者整合其他文本识别网络,以充分利用车牌图像中的相关信息,从而增强车牌识别(的特征提取能力和计算效率之后,能够更好地优化所提取的车牌特征,并且能够在照明条件复杂的情况下自适应地突出车牌的目标特征,抑制不相关的背景特征,同时不会增加模型的复杂度。在车牌检测的早期阶段,主要面临的挑战包括:多样化的车牌布局和语言导致的遮挡问题、不同的尺寸和纵横比、以及在各种光照和天气条件下输入图像的噪声或不清晰问题,如下图。数据集上测试了不同注意力机制的检测模型性能,验证了所提方法的有效性。
2025-05-21 17:31:08
695
转载 目标检测135个前沿算法模型汇总(附源码)!
改论文提出了一种名为MAF-YOLO的新型目标检测框架,旨在通过改进YOLO系列中常用的PAFPN结构来提升多尺度特征融合的效率和适应性,并行化大核卷积和多个小核卷积来扩大感知范围,同时保留小目标信息;该论文提出了一种名为 Mamba-YOLO-World 的新型开放词汇目标检测模型,旨在解决现有 YOLO-World 模型在特征融合机制上的局限性,通过并行引导选择性扫描和串行引导选择性扫描算法,实现了线性复杂度和全局引导感受野的多模态特征融合。是计算机视觉核心方向之一,也是发论文的热门领域。
2025-05-20 19:28:29
69
原创 RFAG-YOLO:一种感受野注意力引导的YOLO网络,用于无人机图像中的小目标检测
第三,航空图像中复杂多样的背景,再加上光照条件和天气影响的变化,会产生大量干扰,这会显著影响检测精度。其次,在高分辨率特征图中,大目标的主导特征响应可能会抑制小目标的较弱响应,特别是由于大目标对相邻区域的空间影响。然而,由于分辨率低、复杂背景干扰以及显著的尺度变化等因素,在无人机图像中检测小目标仍然是一项艰巨的挑战,这些因素共同降低了特征提取的质量,并限制了检测性能。生成的权重随后用于自适应调制相应的特征图,实现尺度感知的特征优化,从而提高模型在不同尺度下准确检测目标的能力。模块的数量减少到两个。
2025-05-19 18:02:14
1172
原创 YOLO-PEL:基于YOLO算法的高效轻量级车辆检测方法
因此,融合多种特征,并结合机器学习或深度学习等更先进的建模技术,能够进一步提高检测的准确性和鲁棒性。这种融合产生了富含语义内容的特征,有助于检测图像中的细微细节,从而提升模型的检测能力。未来的工作将侧重于构建更大规模、更多样化的场景数据集,并结合红外成像等技术,进一步增强模型在复杂环境中的鲁棒性和适应性。因此,需要进行改进,以提高车辆目标的检测速度,同时实现与检测精度的平衡。(选择性特征融合)模块以高层特征作为权重,对嵌入在低层特征中的关键语义信息进行筛选,并进行有策略的特征融合。
2025-05-16 18:36:49
1665
原创 SPDC-YOLO:一种基于改进的YOLOv8的用于无人机航拍图像的高效小目标检测网络
然而,无人机拍摄的图像通常具有多尺度特征、复杂的背景、不均匀的光照以及较低的目标分辨率,这使得无人机图像中的目标检测极具挑战性。然而,无人机拍摄的图像通常具有多尺度特征、复杂的背景、不均匀的光照以及较低的目标分辨率,这使得无人机图像中的目标检测极具挑战性。然而,无人机图像通常是从高空拍摄的,往往具有复杂的背景、显著的光照变化,并且包含小目标,这使得小目标检测。综上所述,随着无人机技术和深度学习的发展,目标检测,尤其是小目标检测,已成为无人机系统中不可或缺的组成部分,并在各个领域的智能应用中展现出巨大潜力。
2025-05-15 20:02:39
1185
转载 ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
在这一新提出的超长视频理解基准上,ViLAMP 在处理包含 10K 帧(约 3 小时)的视频时仍能保持 58.15% 的准确率(原始 QA 数据集准确率 78.9%),超越 VideoChat-Flash 基线模型 12.82%,展现出较强的长视频建模能力。帧内注意力分析:在每一帧的内部,模型的注意力也展现出相似的稀疏性质 ——50% 的 patch(帧划分的最小单位)就承载了 80% 的模型注意力,但这些受关注的 patch 与关键帧中的对应 patch 具有远超随机基线水平的相似度。
2025-05-14 12:30:33
296
转载 首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源
近日,腾讯混元与上海 AI Lab、复旦大学、上海创智学院联合提出全新研究工作 UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,首次让奖励模型在各视觉任务上真正 “学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。实验表明,这一阶段就能激发模型在多个视觉任务中的推理能力。GRPO 阶段:提升幅度最大,模型聚焦于错误推理样本,通过多路径推理探索,逐步收敛至更精确的推理过程,体现出该阶段对 “推理纠错” 的关键作用。
2025-05-14 12:30:33
50
原创 YOLO-MECD:基于YOLOv11的柑橘检测算法(附源代码)
这些观察到的分布特征可归因于多个相互关联的因素,包括但不限于既定的柑橘种植方法、内在生长模式以及数据采集过程中的视角限制,所有这些因素都增加了模型检测参数的复杂性。为了克服这些限制,本研究采用了。值得注意的是,我们的研究表明,减少主干架构中的卷积操作可显著增强对小目标物体的检测能力,并大幅减少模型参数,这比添加小目标检测头更为有效。注意力机制注意力机制是一个至关重要的架构组件,它有助于对特征进行选择性的重点关注,使模型能够优先处理图像中显著的特征,同时弱化不相关的背景信息,从而提升检测性能指标和泛化能力。
2025-05-11 18:02:37
1056
5
转载 CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。很多已有的分布式训练算法的效能较低,甚至可能导致机器和 GPU 卡越多、训练速度越慢的结果。而现有的自动并行方法存在的问题是它们要么只考虑层内或层间两类并行策略中的一类并行策略,要么把两类并行策略做分阶段优化而不是联合优化,求解得到的并行策略的训练效率存在提升空间。
2025-04-30 18:04:14
42
深度学习合集
2017-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人