- 博客(1753)
- 资源 (11)
- 收藏
- 关注
原创 干货 | 利用手持摄像机图像通过卷积神经网络实时进行水稻检测
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式获取论文:关注并回复“水稻”计算机视觉研究院专栏Column of Computer Vision Institute小农户在全球粮食供应中发挥着重要作用。随着智能手机越来越普及,它们使小农能够以非常低的低成本收集图像。PART/1摘要在本研究中,研究者提出了一种有效的深度卷积神经...
2024-01-07 10:30:55
1138
原创 YoloV8与ChatGPT互通,这功能是真的强大!
点击蓝字 关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式参考地址:https://github.com/ultralytics/ultralytics计算机视觉研究院专栏Column of Computer Vision Institute现在的ChatGPT都是输入文字、图片或者语音,那如果将检测网络或者更上层一点的东西,把视觉与ChatG...
2023-07-12 08:26:47
558
原创 Focal DETR:面向 Transformer 的目标检测
DETR的其他改进集中在注意力的应用方式与目标查询的约束优化上:例如,条件DETR解耦了交叉注意力中的上下文与空间匹配区域,可解决对高质量嵌入的依赖;另一方面,若目标包含多种不同纹理的结构(例如人的衬衫与裤子),目标区域的内积和会降低,这种相对关系会影响物体信息分布的准确性。解码器中的自注意力层,与。理论上,特征图中每个令牌的查询与所有令牌键的累加和,可视为目标信息的评估值——通常,背景的评估值远小于前景。我们分别统计了目标区域和背景区域中的采样位置数量,再除以特征图上对应令牌的总数,得到它们的采样偏好。
2025-12-29 10:30:40
371
原创 融合crayfish优化算法与MNS-YOLO的太阳能电池缺陷检测方法
目前,基于深度学习的检测方法已被众多学者应用于太阳能电池缺陷检测领域,主要分为精准化与轻量化两个方向:在精准化方面,通过设计不同的网络结构与注意力机制,提升检测精度;它引入了自上而下与自下而上的双向连接,使信息能够双向传播,提升了特征的传播能力,进而改善算法性能,其结构如图。模块内置的位置编码机制,使网络在处理图像数据时能精准捕捉空间位置信息与局部特征偏差,显著提升了模型对输入特征序列顺序的敏感性,为小目标(如太阳能电池板中的微小缺陷)的精准定位提供了关键支持。随着对群体智能机制与深度学习模型的深入研究,
2025-12-27 19:30:00
464
原创 基于自主机器人系统的土木基础设施裂缝检测
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12349540/计算机视觉研究院专栏Column of Computer Vision Institute我们对YOLOv8n模型进行了优化,在特征融合部分引入创新的C2F-PPA模块,增强了跨尺度特征的适应性和整合能力。PART/1 概述 传统人工裂缝检测方法在效率、安全性和一致性方面常面临局限。为解决
2025-12-27 11:11:52
879
原创 一种基于改进DeepLabv3的水稻叶斑病轻量化分割模型
模块的特性捕捉更清晰的目标边界,但该模型计算成本高昂,再加上水稻病害病斑具有密集且尺寸小的特点,以及水稻生长环境复杂多变,这些都为模型的实际应用带来了新的挑战。)是由谷歌公司研发的一款轻量化卷积神经网络,旨在以尽可能少的计算资源消耗,实现高效、精准的视觉识别,因此适用于计算资源受限的田间视觉识别任务。训练过程中,通过观察模型损失的变化,以及验证集中不同病害病斑的分割评估指标,来评估模型的可行性。的分割框架中,采用了几乎完全相同的动态增强方法,证实该方法能显著提升模型在真实农业环境下的性能与泛化能力。
2025-12-26 10:31:16
986
转载 麻了,YOLO系列还能出成果吗。。。
在室内实验室的实际图像上,使用两个独立研究的数据,豆荚计数MAE为1.07,种子计数MAE为1.33。本文提出了一种基于状态空间模型(SSM)的Mamba-YOLO目标检测模型,通过LSBlock和RGBlock优化了SSM的局限性,实现了性能的提升,并在COCO和VOC数据集上证明了其优越性。本研究提出了一个以注意力机制为核心的实时物体检测框架YOLOv12,它在保持与传统基于CNN的模型速度相当的同时,利用了注意力机制的性能优势,实现了更高的准确度和竞争力速度。(郑重声明:不代写!
2025-12-25 11:31:02
12
转载 YOLO最新进化史:速度不变,精度怎么被卷上去的?
实验结果显示,Open-YOLO 3D在两个数据集上都取得了最先进的性能,并且在ScanNet200验证集上,以每场景22秒的运行时间,实现了24.7%的平均平均精度(mAP),同时相较于现有最快方法获得了约16倍的加速。有人从端到端训练与结构重构出发(如 YOLOv10),有人强化多尺度与小目标表征(如 YOLO-MS、Gold-YOLO 的信息融合思路),也有人把 YOLO 推向更开放的场景(如 YOLO-World 的开放词表)。我们梳理了yolo方向的论文合集,需要的同学可以扫码领取。
2025-12-24 09:30:44
11
转载 在看完157篇多模态融合工作之后......
FedEPA 是一种新型多模态联邦学习框架,通过个性化加权本地聚合策略适配客户端数据异质性,采用基于特征分解的无监督模态对齐方法优化多模态特征表示,再借助自注意力机制的多模态特征融合策略动态整合模态间相关信息与各模态上下文特征,以提升有限标签数据下多模态分类任务性能。MoPE 是一种基于迁移学习的参数高效多模态融合方法,通过引入提示专家混合框架,利用预训练单模态模型的迁移能力,动态生成实例特定提示,结合静态、动态和映射三类分解提示,在仅需 0.8% 可训练参数的情况下实现高效多模态融合,性能媲美全微调。
2025-12-23 10:01:09
8
原创 YOLO-Extreme:一种面向视障人士导航的雾天环境障碍物检测算法
所示,面向视障导航的障碍物检测系统从常规天气切换到雾天时,会遭遇一系列显著挑战:晴天时,行人、车辆、自行车等障碍物的边界清晰、特征突出,可实现可靠检测;但即便如此,现有多数系统在雾天恶劣条件下仍无法提供鲁棒、可靠的障碍物检测,这凸显了改进相关方法的迫切性——此类方法需能提升视障人士在恶劣天气中的安全性与独立性。该方法既能保留关键的上下文与细节线索,又能减轻特征冗余与信息损失,形成更鲁棒的融合过程,适配真实场景的复杂性。在真实导航场景中,尤其是雾天条件下,鲁棒的多尺度特征融合是精准检测障碍物的关键。
2025-12-22 09:31:07
1259
转载 科技破局巡检困境 融腾工地迎来智能守护新模式
无人机巡检可实现施工现场安全巡检、质量进度管控、环境合规监测、应急救援辅助全场景覆盖:搭载高清摄像头与红外热成像设备,快速遍历脚手架、塔吊等关键区域,精准识别各类安全隐患与违规操作,同时远程监控人员作业状态;为破解这一难题,融腾项目工地正式引入芒果智能科技无人机巡检平台,以科技之力重构巡检流程,开启智能化、高效化、精准化的巡检新篇章!芒果智能科技无人机巡检平台凭借灵活机动、覆盖全面、数据精准的优势,在融腾项目工地实现多场景深度应用,让巡检工作 “无死角、高效率、可追溯”引入 AI 智能预测。
2025-12-21 10:31:10
10
转载 必看!工业无人机巡检的 5 大实战场景
变电站巡检更绝,红外热成像技术实时监测变压器温度,提前排查过热故障,再也不怕突然停电。无人机搭载高清摄像头+红外传感器,24小时监控管道状态,哪怕一点点泄漏、非法侵占都能及时发现,巡检油井时还能通过数据分析识别堵塞、腐蚀问题,从源头避免事故。无人机一飞全搞定,风机叶片的磨损、塔筒变形,光伏组件的裂纹、污渍,甚至支架结构的安全性,让新能源发电更稳定。低空产业工业巡检的核心逻辑,今天直接上硬货 —— 无人机在五大工业场景的实战应用,不仅全方位覆盖巡检盲区,更将效率拉满,传统人工巡检根本无法企及!
2025-12-20 10:30:37
19
原创 MFDA-YOLO:面向无人机小目标检测的多尺度特征融合与动态对齐网络
同时,为让AIFI模块更高效地提取关键信息,我们在输入处添加了1×1卷积层以实现通道压缩——这既完成了通道压缩、过滤冗余信息,也确保模块能高效聚焦于无人机检测中最显著的特征。为此,我们采用注意力驱动的尺度内特征交互(AIF)模块替代骨干网络中的SPPF模块——该模块通过单尺度注意力机制捕捉同尺度特征间的依赖关系,增强网络的聚焦能力。随后,经骨干网络增强的特征被输入颈部网络,由我们专门设计的DIDP模块处理小目标特征:该模块高效恢复多尺度特征,确保微小目标的细节被保留并有效传递。最终,生成的序列被重构为。
2025-12-19 09:31:06
1005
原创 Bearing-DETR:一种基于RT-DETR的轻量化轴承缺陷检测深度学习模型
将这一技术整合到我们的网络中,标志着深度学习在轴承缺陷检测这类复杂任务中的应用迈出了重要一步,同时凸显了该模型的灵活性及其在更广泛工业场景中的应用潜力。它在高目标密度与高缺陷多样性条件下的增强检测能力,凸显了其适用于复杂工业环境的部署价值——此类环境中,多样且细微的缺陷检测至关重要。的引入是为了提升模型在复杂工业图像中对缺陷相关特征的聚焦能力,相比标准注意力机制,它能更有效地适配不同形状与尺寸的缺陷。的靶向注意力之间的协同作用,显著提升了检测流程的精度与速度——这对可靠高效的工业应用至关重要。
2025-12-18 10:31:16
680
转载 面试官:如何提升AIGC生成的可控性?
提出 “冻结预训练模型 + 轻量桥接模块” 的预训练框架,高效融合冻结图像编码器(如 CLIP)与大语言模型(LLM),解锁复杂跨模态任务能力。两阶段训练:预训练阶段融合多模态生成目标(文本到视频、图像到视频、音频到视频等),任务适配阶段微调特定任务性能,兼顾通用性与专业性。构建含 4 亿对(图像 - 文本)的大规模数据集,以 “预测图像与文本是否配对” 为预训练任务,学习统一的多模态嵌入空间。首次证明扩散模型在图像生成、修复、上色等任务中的有效性,且训练稳定,无 GAN 类模型的对抗训练不稳定性问题。
2025-12-17 09:30:44
14
转载 九里社区来了“空中哨兵”!芒果智能无人机巡检平台守护城市安全更精准高效
借助平台的“指点飞行”功能,即便是新手也能快速上手操作,巡检效率大幅提升——以往网格员一整天才能完成的巡查范围,如今无人机一小时就能实现全覆盖,更能轻松抵达人力难以触及的区域,真正做到“无死角巡查”。更关键的是,人力巡检存在诸多“视觉盲区”——高层建筑外墙的空鼓隐患、河道深处的漂浮垃圾、工地围挡的细微破损等问题难以被及时发现,小隐患长期拖延极易演变为威胁安全的大问题。发现问题后,平台自动生成带位置坐标的事件工单,直接推送至工地负责人,形成“发现—上报—处理—复查”的闭环管理,杜绝问题拖延。
2025-12-16 11:00:42
19
原创 基于YOLO-NAS深度学习模型的集装箱损伤检测自动化方案
然而,高质量标注数据集的匮乏与机器学习模型的适配性不足,限制了该领域的创新,这也催生了探索前沿方法的迫切需求。这种方法降低了运营成本、提升了安全性,同时减少了对人工检查的依赖,助力“智慧港口”的发展,使集装箱管理具备更高的效率与可持续性。此外,港口管理方还可让部署在多个港口的模型在不共享原始数据的前提下协同优化,既解决了隐私问题,又能提升不同港口的模型性能。本研究的数据集包含在海港真实环境下采集的货运集装箱图像,涵盖了不同类型、颜色的集装箱,以及凹陷、划痕、锈蚀、裂缝等港口作业中常见的物理缺陷。
2025-12-12 10:06:26
951
转载 抛弃CNN!Mamba+YOLO引爆检测革命
本文提出了一种名为FER-YOLO-Mamba的模型,通过结合Mamba和YOLO技术,用于面部表情识别和定位,创新点在于首次将Vision Mamba模型应用于面部表情检测和分类,并设计了一种FER-YOLO-VSS双分支模块,结合了卷积层的局部特征提取能力和状态空间模型揭示长距离依赖关系的卓越能力。本文提出了一种基于状态空间模型(SSM)的Mamba-YOLO目标检测模型,通过LSBlock和RGBlock优化了SSM的局限性,实现了性能的提升,并在COCO和VOC数据集上证明了其优越性。
2025-12-11 11:01:48
34
原创 YOLO-LWNet:一种面向移动终端设备的轻量化道路损坏目标检测网络
网络剪枝技术是对已设计好的网络模型进行优化,通过移除模型中冗余的权重通道,压缩后的神经网络模型可实现更快的运行速度与更低的计算成本;最终,在平衡检测精度、推理速度、模型规模与计算复杂度的原则下,通过实验确定了轻量化道路损坏检测网络的具体结构,并根据网络宽度将其定义为小型与微型两个版本。但在道路损坏检测的实际应用中,它们的计算成本较高、模型规模较大,并不适用于移动终端设备。这些网络引入了一些新的网络设计思路,既能维持模型检测精度,又能在一定程度上有效减小模型规模、降低计算复杂度,这对移动终端的部署至关重要。
2025-12-10 09:31:22
543
转载 听劝!2026的风口一定是LLM Agent!
论文提出了Meta-Task Planning(MTP),一种零样本协作大型语言模型基多智能体系统的元任务规划方法,通过将复杂任务分解为子任务或元任务层次简化规划,提高了在旅行规划器和API-Bank基准上的任务成功率。本文提出了一个名为Embodied Agent Interface的通用接口,用于评估大型语言模型在具身决策任务中的性能,并揭示了其在不同子任务中的优势和不足。,能分解 agent 在具身决策中的错误类型,如幻觉、可供性错误、不同类型的规划错误等,而不仅是最终成功率。
2025-12-08 10:05:04
35
原创 基于含人工智能模块的立体三维视觉系统控制工业机器人
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12568319/计算机视觉研究院专栏Column of Computer Vision Institute生产流程的机器人化以及三维视觉系统的应用目前正变得越来越普及。这使得机器人流程具备了更高的灵活性,并且能够根据物体参数、物体位姿以及流程自身的变化,拓展流程控制的可能性。遗憾的是,标准解决方案的应用局限于机器人视
2025-12-06 11:13:53
947
原创 NABNet:基于深度学习的物联网异常颈部行为检测警报系统
另一方面,基于计算机视觉的方法通常使用摄像头捕获图像,克服了基于可穿戴设备方法固有的设备固定放置的局限性,并且可以同时对多个事件进行可见捕获。对异常行为的早期检测和监控可以提高久坐人群的生活质量,同时减轻医疗资源的压力,并具有显著的商业价值。当前的异常行为检测方法大致可分为三类:基于环境设备的方法、基于可穿戴设备的方法和基于计算机视觉的方法。因此,这些最先进的目标检测器在检测颈部异常行为时效果不佳,因为它们无法捕捉颈部旋转等细微的特征差异,而这些差异对于颈部异常行为的分类和定位至关重要。
2025-12-05 10:04:16
692
转载 涨点神器!265个顶会上的开源即插即用模块汇总(附源码)!
实验结果表明,U-RWKV在保持高计算效率的同时,实现了最先进的分割性能,为在资源受限环境中普及先进的医学成像技术提供了实用解决方案。该模型结合了Kansformer编码器、SCConv编码器和全局-局部注意力编码器(GLAE),通过改进的Kolmogorov-Arnold网络(KAN)提升非线性特征表达和可解释性,利用空间和通道重构单元减少特征冗余,并结合多头自注意力和局部模块捕捉全局与局部特征。此外,作者还发布了包含超过10,000个样本和近40个分类的BMCD-FGCD数据集,以促进该领域的研究。
2025-12-04 12:01:36
22
转载 五年,终于等来Transformers v5
尽管 Hugging Face 始终尊崇「一个模型,一个文件」的哲学,但他们仍在不断引入一些抽象层,以简化通用辅助函数的管理。最后,Hugging Face 也在推动本地推理的边界,并与 executorch 团队紧密合作,让 Transformers 模型能够在设备端直接运行,对多模态模型(视觉、音频)的支持也在快速扩展中。推理也是 v5 优化的重点方向之一,Hugging Face 带来了多项范式级的更新:包括专用内核、更干净的默认设置、新的 API,以及优化对推理引擎的支持。
2025-12-04 12:01:36
40
转载 芒果赋能:城区交通治理的创新实践与突破
芒果低空调度中台车辆检测算法搭配无人机高机动性,针对实线变道、加塞等违法行为进行拍摄,同步可将实时画面传输至指挥中心,交警实时见证违法全过程,精准判定违法类型,解决传统模式“抓不住、判不准” 的难题。芒果低空调度中台车辆检测算法搭配无人机高机动性,针对实线变道、加塞等违法行为进行拍摄,同步可将实时画面传输至指挥中心,交警实时见证违法全过程,精准判定违法类型,解决传统模式“抓不住、判不准” 的难题。联动无人机,化身空中 “电子警察”,精准锁定各类违法,以技术革新重构取证逻辑,让违法者再无侥幸。
2025-12-03 10:02:36
15
原创 BGLE-YOLO:一种用于水下生物检测的轻量化模型
Xu等人提出使用逆残差块和分组卷积来提取深层特征,这使得特征提取网络能够优先关注包含大量信息的通道并舍弃无关紧要的通道,简化了感知目标与背景信息的区分过程,进一步提高了模型的精度,并显著降低了推理所需的内存占用。Tang探索了医疗图像处理中小目标分割和模糊目标边界的定位能力,发现全局到局部空间聚合(GLSA)模块对全局和局部空间特征的聚合与表达能力,显著提升了水下大小目标的定位效果,但它的大量参数可能限制其在资源受限场景中的使用。然而,他们的研究增加了计算复杂度,限制了其在实时和资源受限场景中的应用。
2025-12-03 10:02:36
833
原创 YOLOv9优化表面缺陷检测:先进骨干网络模型的作用
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12549665/计算机视觉研究院专栏Column of Computer Vision InstituteYOLO算法模型被广泛用于表面缺陷检测,为识别材料表面的各类缺陷和瑕疵提供了一种稳健且高效的方法。PART/1 概述 在本研究中,我们探索在YOLOv9框架中集成六种不同的骨干网络,以优化钢带的表面缺
2025-12-02 10:34:15
805
转载 终于!搞视觉的学生也有机会发SCI了
还在为创新点而头秃的硕博er,还在愁如何写出一篇好论文的科研党,一定都需要来自顶会论文作者、顶会审稿人的经验传授和指点。这种按审稿标准做研究的方法,能避开80%的无效努力,让SCI产出效率直接拉满,半年5篇的关键从不是卷,而是找对路。有位博三学员,为了毕业进大厂,想多发一些顶会顶刊来提高自己能力,但自己导师散养,在实验阶段总遇bug,找到了。家对上面内容感兴趣,可以扫码咨询科研顾问,无论你是否报名,都可以获得261G的科研学习资料!只要发了SCI,哪怕是五作,也可以写进简历里,一定是加分项。
2025-12-01 11:48:59
27
原创 MAR-YOLOv9:一种基于YOLOv9的农田多数据集目标检测方法
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC11521258/计算机视觉研究院专栏Column of Computer Vision Institute随着深度学习技术的发展,目标检测已在各个领域得到广泛应用。然而,在跨数据集目标检测中,传统深度学习模型常面临性能下降的问题。在农作物种类繁多、环境复杂多变的农业领域,这一问题尤为突出,现有技术在应对多样场景时仍存
2025-11-30 10:31:08
823
原创 AS-YOLO:融合Ghost瓶颈与全局注意力机制的YOLO改进算法在苹果果柄分割中的应用
实验结果表明,所提出的AS-YOLO模型在GPU上实现了129.8FPS的实时推理性能,同时在mAP@50和mAP@50-95等指标上保持了较高的准确性。与之前的模型相比,AS-YOLO提供了更快、更准确的性能,凸显了其在实时自动化系统中的潜力。此外,我们将增强模型在不同光照条件、复杂背景和障碍物的农业环境中的鲁棒性,确保其在这些具有挑战性的场景下保持稳定的性能。模型的输出包含分割结果(图2中的步骤4),这些结果以二值掩码的形式呈现,用于分离检测对象的边界和区域(图2中的步骤5和步骤6)。
2025-11-29 20:30:37
601
原创 基于YOLOv9-CAG的多场景感知无人机精准识别
点击关注关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12311006/计算机视觉研究院专栏Column of Computer Vision Institute随着无人机(UAV)应用的日益广泛,其识别在安全领域具有重要意义。先进识别技术的研究能有效应对无人机非法入侵,降低对航空安全的威胁。然而,在识别过程中,远距离、复杂环境(尤其是夜间场景)常导致无人机识别效果受限,
2025-11-28 10:04:40
290
转载 小米开源首个跨域具身基座模型MiMo-Embodied,29个榜单SOTA
特别值得注意的是,MiMo-Embodied 在 VABench-Point、Part-Afford 和 RoboAfford-Eval 上大幅领先其他具身智能模型,展现出在精细可供性推理方面的强大能力。在导航任务中,MiMo-Embodied 在四个家庭导航场景中表现优异:定位卧室中的床、在餐厅找到吸尘器、在书房识别植物、在浴室定位马桶。大语言模型(LLM)与多模态大语言模型(MLLM)的浪潮正以前所未有的速度席卷 AI 领域,但当算法试图走出数字世界,迈入物理实体时,却遭遇了严重的“水土不服”。
2025-11-28 10:04:40
57
转载 今年Agent闭眼都能发论文?高分创新思路都在这!
对比不同协议在安全性、扩展性等维度的性能,通过案例分析展示协议应用差异,展望协议向可进化、隐私保护、群体交互等方向发展的趋势,为相关设计与集成提供参考。模型在机器人技术、游戏智能和医疗保健三大领域开展实验,借助多种数据源实现多模态和多任务学习,展现出良好的通用性与适应性,为开发通用型多模态智能体提供了可行路径。围绕合成群体展开综述,从个体活性代理的运动性、结构与功能化入手,解析群体生成的交互机制,阐述自组装、自组织等群体行为及机器智能的涌现。2.应用落地(协作,交互,医疗,安全,特定任务)
2025-11-27 10:04:12
53
原创 智能水果采摘机器人视觉感知技术综述
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12401999/计算机视觉研究院专栏Column of Computer Vision Institute随着智慧农业的发展,水果采摘机器人作为提升农业生产效率的关键技术之一,受到了广泛关注。视觉感知技术在水果采摘机器人中起着至关重要的作用,涉及水果的精准识别、定位以及抓取操作。PART/1 概述 本文综
2025-11-26 10:04:25
358
转载 (图解+手撕代码)一文彻底搞懂Transformer模型
注意力机制是 Transformer 模型的核心,类比我们阅读时会重点关注句子中的关键词语,模型通过“聚光灯”式的关注机制,让输入序列中的每个元素都能聚焦于其他相关元素(包括自身),从而精准捕捉上下文信息。解码器层是 Transformer 解码器的基本单元,在编码器层的基础上增加了“掩码多头自注意力”和“编码器-解码器注意力”,用于处理输出序列的生成逻辑(如自回归生成,避免关注未来元素)。每个编码器层接收上一层的输出,通过自注意力捕捉序列内依赖,再通过前馈网络提炼特征,最终输出更抽象的序列表示。
2025-11-25 10:01:10
145
转载 当YOLO遇上Mamba:顶会顶刊疯狂“点名”的新一代目标检测范式来了
本文提出了Mamba-YOLO-World,一种基于YOLO的开放词汇检测模型,通过创新的MambaFusion Path Aggregation Network(MambaFusion-PAN) neck结构,实现了线性复杂度特征融合机制,提高了检测性能。本文提出了一种轻量级的Xray-YOLO-Mamba模型,通过集成YOLO和Mamba架构,并引入创新的CResVSS、SDConv和Dysample模块,实现了在X射线图像中禁品检测的高效性和准确性。」发愁,或者准备投下一轮顶会,这20篇。
2025-11-24 10:03:22
100
原创 NAN-DETR:通过多锚点加噪提升 DETR 的目标检测性能
Co-DETR(Zong等,2023)将目标查询分配与辅助查询解耦,以实现更广泛的特征捕获,而Group DETR(Chen等,2023)和NMS DETR(Ouyang-Zhang等,2022)采用一对多的标签分配方式,其中后者整合了非极大值抑制来优化结果。通过采用基于Transformer的编码器-解码器架构(Vaswani等,2017),并利用匈牙利算法(Kuhn,1955)实现一对一的匹配策略,DETR支持直接的端到端优化,简化了检测流程。这一步骤最大限度地减少了冲突,并融合了多个框的检测信息。
2025-11-23 10:30:58
739
原创 CNATNet:一种用于红花分类的卷积-注意力混合网络
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12518317/计算机视觉研究院专栏Column of Computer Vision Institute红花(*Carthamustinctorius*L.)是一种重要的药用和经济作物,高效且准确的花丝分级对其农业和医药应用中的质量控制至关重要。然而,当前方法依赖人工检测,耗时且难以规模化。PART/1 概
2025-11-20 09:01:53
651
原创 气候变化对基于无人机热成像相机的航空野生动物调查规划的广泛影响
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC10023802/计算机视觉研究院专栏Column of Computer Vision Institute无人机与热红外相机可实现野生动物探测,但个体探测能力受天气条件影响。尽管我们对局部天气状况已有充分了解,却缺乏用于无人机野生动物调查规划的大范围环境温度评估数据。气候变化将在未来影响热成像调查的开展可行性。PAR
2025-11-19 12:01:08
774
原创 面向工厂质量控制:基于计算机视觉与集成机器学习的橙子无损体积估算(含硬件部署)
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID|计算机视觉研究院学习群|扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12565508/计算机视觉研究院专栏Column of Computer Vision Institute在工业质量控制中,尤其是食品和农业领域,一项关键任务是快速且精确地估算物体体积。PART/1 概述 本研究结合前沿机器学习与计算机视觉技术,提出一种全面的橙子体积无损预测方法。我们构建了一条可靠的流程
2025-11-18 10:02:21
356
深度学习合集
2017-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅