- 博客(418)
- 收藏
- 关注
原创 一步生成,像素空间,何恺明让 pMF 做到了
但到了 256×256,u-预测的 FID 飙到 164.89,而 x-预测仍能维持在可用区间(FID 9.56)。,在不借助潜在空间、不依赖多步采样的前提下,只用一次前向传播,就生成了质量相当扎实的图像。在 ImageNet 上,256×256 分辨率做到 2.22 的 FID,512×512 也稳在 2.48。只要目标设得足够聪明,约束放在合适的位置,一次映射,也可以是稳定而可信的。从参数量、算力开销到生成质量,pMF 并非“便宜凑数”的方案,而是一个正经的高性能模型,只是把流程压缩到了极限。
2026-02-03 10:35:19
328
原创 CVPR 2025 Oral | 港大提出OverLoCK:模仿人类视觉机制,让模型“先见森林,再见树木”
在设计中,团队发现将Focus-Net的当前特征作为“查询”(Query),而将Overview-Net的全局先验作为“键”(Key),来生成动态核权重,能获得最佳性能。最关键的是,来自Overview-Net的全局先验信息,会贯穿并持续指导Focus-Net的每一个计算步骤,不仅在特征层面进行调制,还直接参与动态卷积核权重的生成,实现了自上而下信号的全方位、深层次注入。如今,来自香港大学俞益洲教授实验室的研究团队,将这一认知机制成功引入视觉骨干网络的设计之中,提出了一种全新的动态卷积视觉模型——
2026-02-03 10:05:17
423
原创 告别CLIP局限!SSVP框架实现零样本异常检测,刷新7大数据集SOTA
该框架不仅引入DINOv3补充细粒度视觉特征,更通过一种创新的“语义-视觉协同”机制,使提示词(Prompt)不再是静态文本,而是能根据图像内容动态生成的“灵动指令”。为实现像素级精确定位,VTAM引入异常专家混合(AnomalyMoE) 机制,通过双门控结构(全局尺度门控与局部空间门控)过滤背景噪声,突出异常区域,最终输出清晰、高对比度的异常热力图。对于从事工业AI、视觉质检及相关应用的开发者而言,SSVP所提出的特征协同范式与视觉条件化提示生成思路,具有重要的参考价值和实践意义。
2026-02-02 10:51:06
385
原创 测试里“无所不能”,一上线就“ bug 频出”,你的CV模型到底缺了什么?
他们发现,即便用同样数据和流程训练,仅因随机种子不同,产出的模型在标准测试集上分数可能一模一样,但在真实压力下(比如面对新的相机型号或不同人群),表现却天差地别。这些珍贵的“错题”被回收、标注,再喂回给模型,形成一个“从错误中学习”的强力闭环。所以,当一只训练集中从未出现过的“兔子”突然蹦到眼前,模型不会说“我不认识”,反而会以一种近乎武断的自信,把它归为“猫”或“狗”。鲁棒性、对未知的处置智慧、在长尾场景下的担当,以及在具体硬件上的效率,共同构成了模型在真实世界中的立体画像。一切问题的起点,或许是数据。
2026-02-02 10:38:59
190
原创 96%准确率!中科院提出ACLNet,攻克骨架动作识别最难问题:相似动作区
其次,我们提出边缘对比策略,通过显式控制困难正样本与负样本的分离度,增强了模型对类内变异的鲁棒性。然而,骨架模型也有自己的“心病”:由于缺乏物体信息和精细的体型特征,它很难分清那些动作极其相似的行为,比如“读书”和“写字”、“喝水”和“擦嘴”。类间改进差异分析显示,ACLNet提升最明显的正是传统模型最头疼的“重灾区”,如“打喷嚏/咳嗽”、“读书”和“打字”。它在正负样本之间强行加入边缘约束,即使某个正样本长得很像负样本,模型也会强制拉开它们之间的距离,实现更稳健的特征分离。
2026-01-30 10:35:08
1062
原创 模型太大跑不动?工业视觉轻量化,降低延迟、减少功耗、提升稳定性
他们最终找到的,不是一个“最优”模型,而是一个“最稳”的版本。你需要将优化后的模型,放入一个极度仿真的数据流中——模拟产线突然的加速,模拟灯光偶然的闪烁,模拟部件非常规的摆放。未来的工业视觉模型,或许在诞生之初,就会携带多份“身份证”:一份标注其在云端巨量参数下的完整能力,另一份则清晰地写明,当它被量化、裁剪到某一规格时,在特定边缘硬件上预期的速度与精度。最好的工业视觉,不是那个让风扇狂转、引人注目的高科技展品,而是像车间里的电流与气压一样,稳定、可靠、无声地融入生产本身,成为呼吸般自然的存在。
2026-01-30 10:19:48
849
原创 什么是图像计算?解析AI视觉背后的科学,快速入门指南
在彩色图像中,会使用多个矩阵来表示不同的颜色通道,例如红、绿、蓝(RGB)或色调、饱和度、明度(HSV)。随着深度学习的不断进步,图像计算正成为构建更智能、更实用的工具包和应用程序的重要组成部分。在图像计算的早期阶段,边缘、角点和纹理等特征是使用基于规则和手工设计的算法来手动定义的。作为人工智能的一个分支,在图像处理的基础上,使机器能够识别物体、解释场景并理解图像或视频中正在发生的事情。最后,系统生成结构化的输出,如类别标签或边界框,并以易于人或其它系统理解和用于可视化的方式呈现。
2026-01-29 10:31:42
510
原创 字节跳动开源HUVR:一个视觉模型同时搞定识别与生成,96倍压缩令牌性能不减!
HUVR的编码器拥有“特异功能”——不仅能输出标准维度的令牌(如ViT-B的768维),还能并行输出一个极低维度的版本,即“微型令牌”。在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了85.0%的Top-1准确率,略高于DINOv3的84.6%,与SigLIP 2等SOTA模型持平。,包括VAE、GAN和最近的扩散模型,专注于学习如何重建或生成逼真的图像。虽然初步结果还无法与顶级的生成模型媲美,但已经成功证明了HUVR的嵌入具备驱动生成模型的潜力,为未来的研究开辟了新的可能性。
2026-01-29 10:00:18
483
原创 10亿参数刷新OCR记录:LightOnOCR-2如何以小博大?
最近,法国AI公司LightOn在文档理解领域投下了一枚重磅炸弹——他们推出的LightOnOCR-2-1B模型仅凭10亿参数,就在权威OCR评测基准OlmOCR-Bench上击败了参数量大它9倍的竞争对手,登顶SOTA宝座。在OlmOCR-Bench基准测试中,LightOnOCR-2-1B取得了83.2分的优异成绩,超越了此前最强的9B参数模型Chandra(81.7分),成为新的榜单冠军。在生成的文本中,模型会使用类似Markdown的语法标记图像位置,并提供精确的边界框坐标。
2026-01-28 10:26:50
575
原创 今日,DeepSeek再次“拆掉重做”,开源架构炸场:OCR 2只是起点,这次要重构AI的“眼睛”和“大脑”?
可我们真实的阅读,视线明明是跟着语义走的——先被醒目的标题吸引,再顺着图表趋势找到关键数据,最后才可能扫一眼边角的注释说明。现有的视觉语言模型,大多遵循一种近乎刻板的流程:把图像切割成小块,然后强制按“从左到右、从上到下”的网格顺序排列,打上固定的位置编码,再塞给语言模型去理解。想象一下,同一个编码器骨干,通过共享的注意力机制和前馈网络,配合上针对不同模态(文本、语音、图像、视频)训练的可学习查询嵌入,就能处理各式各样的信息。这说明,模型输出的文本顺序,确实更贴近人类理解的逻辑了。同时,引入一组全新的。
2026-01-28 10:07:15
917
原创 诊断、分割、解释三位一体:医学AI如何从“工具”进化成“助手”?
当模型既能“指出来”,又能“说出来”,还能“解释清楚”时,我们距离AI成为医生的得力伙伴,便又近了一步。想象一下这个场景:一位医生拿到一张胸片,AI不仅高亮了一片阴影区域(分割),还能同时给出诊断——“疑似肺炎”,并附上推理:“此处可见片状高密度影,边界模糊,符合社区获得性肺炎的典型影像学表现”。医生面对的,仍然是碎片化的信息。计算相似度图:RVLS2M计算每个图像区域特征与分割目标文本特征之间的余弦相似度,得到一张“热度图”——越亮的地方,表示该区域与文本描述的目标越相关。好的模型需要好的数据。
2026-01-27 11:20:18
635
原创 YOLO26技术详解:原生NMS-Free架构设计与实现原理
训练初期,分类损失权重更大,让模型先学会“识别物体”;然而,DFL依赖的Softmax运算在边缘设备(如NPU/DSP)上效率低下,且难以量化,造成了严重的“导出鸿沟”——GPU上运行流畅的模型,一到边缘端就性能骤降。从帕累托曲线可以看出,YOLO26形成了全新的“效率边界”,在任何给定的延迟水平下都提供了更高的精度,全面超越了包括RTMDet在内的竞争对手。对于需要在边缘设备部署AI应用的企业和开发者来说,YOLO26提供了一个极具吸引力的选择:它不仅更快、更准,更重要的是,它的部署简单性前所未有。
2026-01-27 09:48:38
586
原创 YOLO26、RF-DETR、D-FINE… 2026模型混战,工程师选择困难症怎么破
但有趣的是,擂台另一边也热闹得很——2024到2025年间,几位风格迥异的选手已接连登场:RF-DETR、LW-DETR、D-FINE这些“非YOLO系”的选手,正凭着一技之长迅速逼近,甚至在有些赛道上完成了超车。论文指标上,它的表现可圈可点。它是一位挑剔的、追求极致精度的艺术家,需要完美的舞台,而嘈杂的工业现场,往往给不了这份完美。相较于YOLO11在稳定性上偶尔的波动,或是RF-DETR们对算力环境更高的要求,YOLO26所追求的,正是一种“更低延迟、更广支持、不妥协精度”的实用主义哲学。
2026-01-26 10:40:19
739
原创 Meta ShapeR重磅开源:多模态3D生成,从真实杂乱视频中稳健重建
在定性对比中,无论是传统的场景级重建方法,还是依赖分割掩码的先进技术,ShapeR生成的模型都更加完整和准确。该数据集包含7个真实场景中的178个物体,全部通过随手拍摄的方式采集,并配有高质量的完整3D模型真值,专门用于评测模型在“野外”环境下的重建能力。1. 稀疏SLAM点云:通过视觉惯性SLAM技术从视频中提取的3D点云,提供了物体的“骨架”结构和真实物理尺度,这是保证重建准确性的基础。在这个充满可能性的时代,也许不久后,随手一拍,就能将眼前的世界转化为精准的3D模型,不再是一个遥不可及的梦想。
2026-01-26 10:19:20
626
原创 当全世界都在谈论千亿大模型,工厂里的流水线却只相信 YOL
它似乎又一次拽着“实时目标检测”的衣角,把它拉回到工厂的流水线、监控室的屏幕边,拉回到那些真实存在、尘土与电流交织的工业场景里。它提供了一个集成的AI算法平台,能够方便地访问、训练管理和部署评估包括各类前沿的开源模型,大幅降低了从模型选择到实际应用的门槛。YOLO26一路朝着轻量化、本地化优化,其实就是在说:工业视觉的主战场,依然在边缘,在端侧,在那些不会说话却常年轰鸣的设备里。可当你真正走进工厂、贴在产线边、站在机房嗡嗡作响的风扇前,才会发现,那里被反复依赖的,永远是那些算得清、跑得久、修得起的模型。
2026-01-23 09:58:42
959
原创 一个模型搞定所有场景!哈工大&罗切斯特大学提出无监督多场景ReID新方案
为了让模型“知道”自己处理的是哪种场景,研究者在CLIP的图像编码器中引入了巧妙的场景嵌入设计——在输入视觉Transformer之前,将可学习的场景特征嵌入到class_token中。未来,或许我们真的能够实现“一个模型,适应万物”的终极目标。接着,模型在每个场景内部进行同构学习:通过聚类算法为图像生成伪标签,然后使用同构对比损失优化编码器,目标是拉近同一身份的图像,推开不同身份的图像。关键的创新是多场景分离损失,它主动推动不同场景的文本表示相互分离,确保模型不仅能识别身份,还能感知场景差异。
2026-01-22 17:27:03
600
原创 告别“模糊”与“迟钝”!首创波动方程建模视觉,ImageNet 84.2%,推理速度飙升
在深度学习视觉建模领域,如何既实现高效的全局语义交互,又能精准保留图像中的高频细节(如边缘和纹理),一直是一个关键难题。而视觉Transformer(ViT)虽然通过自注意力实现了全局交互,但其二次复杂度限制了在高分辨率图像上的应用,且缺乏对空间频率传播的显式建模。通过将波动方程引入视觉传播过程,研究者成功实现了频率与时间的解耦,在保持全局语义的同时,精准保留了图像的高频细节。而波动方程描述的是一种。:不同频率的成分在传播过程中以阻尼振荡的形式共存,低频决定整体结构,高频保留局部细节,且衰减与频率无关。
2026-01-22 10:04:13
720
原创 大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOT
他们的工作UniADet(Universal vision Anomaly Detection)以“简单到令人尴尬”的方式,彻底摆脱了对语言模型的依赖,仅用纯视觉基础模型,就在14个真实的工业和医疗异常检测基准上,大幅超越了现有的零样本/少样本SOTA方法。在Real-IAD这个具有代表性的大规模数据集上,UniADet仅用4张正常样本就达到了90.3%的Image-AUROC,超越了全样本训练的SOTA模型Dinomaly(89.3%)。UniADet为通用异常检测领域树立了一个新的、极具竞争力的基准。
2026-01-21 15:42:55
674
原创 从“单例模仿”到“多面融合”,视觉上下文学习迈向“团队协作”式提示融合
视觉上下文学习的目标,是让模型仅通过观察几个给定的视觉示例,就能理解和完成新的视觉任务。例如,给定几张分割好的“猫”的图片,模型就能自动对新图片中的猫进行分割。在COCO-5ⁱ数据集上训练,然后在PASCAL-5ⁱ上测试的挑战性设置中,该方法同样表现最优,证明了其学到的表示具有高度的可迁移性。这好比学画时只临摹一幅最像的作品,却忽略了其他视角、风格各异的佳作,无形中丢弃了宝贵的多样性信息。的融合范式有望扩展到更多视觉乃至多模态任务中,让人工智能的上下文学习能力更接近人类的“举一反三”。
2026-01-20 10:49:57
563
原创 还在用“网格”预测深度?浙大新方法让你直接“函数调用”,打破分辨率枷锁!
InfiniDepth的核心贡献在于思维的转变——将深度从离散的网格表示,解放为连续的隐式场表示。在Synth4K和KITTI、NYUv2等真实数据集上的大量实验表明,InfiniDepth在相对深度估计和稀疏深度引导的度量深度估计任务上,均达到了最先进的性能。局部特征查询:对于任意查询坐标(x,y),在特征金字塔的每一层,通过双线性插值,从其周围一个小邻域内提取对齐的局部特征。反投影后得到的是在物体表面均匀分布的3D点云,从而为后续的新视角合成提供了高质量的几何基础,显著减少了空洞。
2026-01-20 10:11:50
658
原创 计算机视觉的 2026:从“堆算力”竞赛,到“省算力”智慧
2026 年的今天,我们依然面临尴尬现实 —— 最先进的视觉模型在数据中心里能达到 99% 的准确率,却因过高的能耗和延迟,无法落地到自动驾驶、可穿戴设备这些核心场景;2026 年,计算机视觉早已不是实验室里的小众技术 —— 它是自动驾驶汽车的 “眼睛”,是医疗影像诊断的 “辅助手”,是机器人交互的 “感知中枢”,更是多模态大模型理解世界的核心支柱。该框架设计通用,与各种网络架构和任务兼容,为在机器人、可穿戴设备、移动AI、自动驾驶、医疗AI等广泛的实际场景中,部署强大而高效的视觉模型打开了新的大门。
2026-01-19 10:34:06
570
原创 视频超分辨率如何提升跨视角行人识别?让监控画面“看清”每一个人
更先进的生成对抗网络方法虽然能生成更逼真的图像,却可能“幻想”出不存在的纹理,误导识别系统。随着摄像头网络的扩展和无人机应用的普及,如何处理跨视角、跨分辨率的视觉数据将成为越来越重要的课题。对于视频数据,S3-CLIP引入了时序一致性损失,确保连续帧之间的超分辨率结果平滑自然,避免出现闪烁或跳变,这对于视频行人识别至关重要。这项研究提醒我们,在追求更高识别准确率的同时,我们也需要关注输入数据的质量。研究团队指出,S3-CLIP的当前版本使用固定2倍上采样,这限制了其对多样化分辨率分布的适应性。
2026-01-19 10:01:44
659
原创 如何用10%的标注数据,达到可媲美全监督模型的性能?AAAI 2026论文揭秘BCSI三大创新设计
更令人振奋的是,在仅使用20%标注数据的情况下,BCSI的性能已经能够媲美使用100%全监督数据训练的VNet模型。在医疗资源分布不均、专家标注成本高昂的当下,BCSI这类高效半监督学习技术的出现,正为AI在医疗领域的普惠应用打开新的可能性。模型对弱增强数据生成相对可靠的伪标签,以此指导两种强增强数据的学习,同时要求对两种强增强数据的预测保持一致。,该方法在仅使用10%标注数据的情况下,就能达到媲美全监督模型的性能,为破解医学图像标注难题提供了创新解决方案。
2026-01-16 10:21:20
544
原创 YOLO26正式亮相!极致速度优化,为落地而生!
与 YOLO11 相比,其 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升,成为目前边缘端与基于 CPU 部署场景中,速度与精度兼顾的领先目标检测模型之一。与以往的 Ultralytics YOLO 系列一致,YOLO26 采用统一模型家族设计,提供五种尺寸:Nano(n)、Small(s)、Medium(m)、Large(l)和 Extra Large(x)。新增角度损失函数,优化方向模糊的方形物体检测,减少边界附近的角度突变,实现更稳定的方向估计。
2026-01-15 10:44:30
944
原创 仅192万参数的目标检测模型,Micro-YOLO如何做到目标检测精度与效率兼得
本文介绍一种基于YOLOv3-Tiny改进的极轻量检测模型——Micro-YOLO,它通过融合深度可分离卷积、注意力机制与渐进式通道剪枝,在保持较高检测精度的同时,大幅降低了模型复杂度与计算开销,为嵌入式场景中的实时目标检测提供了新的解决方案。我们分析了几种类型的卷积层,例如深度可分离卷积(DSConv)和带有挤压激励模块的倒置瓶颈卷积(MBConv),以确定适用于Micro-YOLO网络的最佳层类型。它通过精心架构的卷积模块和智能剪枝策略,在资源受限的环境中开辟了新的可能性。
2026-01-14 10:23:54
569
原创 2026 CES 如何用“视觉”改变生活?机器的“视觉大脑”被点亮
与上一代Blackwell相比,Rubin不仅在处理速度上实现了三倍提升,更重要的是其架构专为复杂、动态的视觉环境设计。该架构以发现暗物质的天文学家命名,象征着它要处理的是那些难以直接观测却至关重要的“关系”与“上下文”。与此同时,智能的定义正在被改写。未来,智能将不仅仅是云端庞大模型的产物,更是每一个终端设备基于本地视觉感知做出的即时、可靠的决策。2026 拉斯维加斯会展中心,当LG的机器人CLOiD“凝视”着地上散落的毛巾,经过短暂“思考”后决定召唤扫地机器人时,它完成的不仅是一系列动作,而是一个。
2026-01-14 09:45:24
808
原创 为AI装上“纠偏”思维链,开源框架Robust-R1显著提升多模态大模型抗退化能力
如今的多模态大语言模型(MLLMs)已经展现出令人惊叹的图像理解和推理能力,能够回答关于图片的问题、生成描述,甚至进行复杂的视觉推理。然而,一个长期存在的挑战是:。从原始图像出发,经过多阶段退化合成,再逐步生成“影响描述”“干净推理”“最终结论”,最后根据退化强度对推理链进行长度缩放。可以看到,经过SFT和RL优化后,模型不仅能给出更准确的答案,还能生成清晰、结构化的推理过程,同时避免冗余输出。团队首先构建了一个包含11K样本的数据集(基于A-OKVQA),为每张退化图像标注了完整的推理链,包含:。
2026-01-13 11:06:23
514
原创 YOLO-Maste开源:首个MoE加速加速实时检测,推理提速17.8%
普通的骨干网络产生同质化特征,限制了颈部网络发现互补专家模式的能力。YOLO-Master基于近期的YOLO架构构建,并引入了一个高效稀疏混合专家模型模块,以实现稀疏的、实例条件的自适应计算。在表 4 中,YOLO-Master-seg-N 实现了 35.6% 的掩膜 mAP,超过了 YOLOv12-seg-N 2.8%,展示了在定位和掩膜预测方面的同步改进。我们借鉴人类视觉系统“选择性关注”的智慧,引入高效稀疏混合专家模块,让模型能够根据输入图像的复杂度,动态激活最相关的专家网络,实现“按需计算”。
2026-01-13 10:08:35
831
原创 超越Sora的开源思路:如何用预训练组件高效训练你的视频扩散模型?(附训练代码)
这个方程定义了一个像素级的映射,描述了源帧 x0 中的像素如何被移动到目标帧 x1 中,将每个在 (x, y) 的像素映射到 (x + u, y + v)。在我的实验中,源帧被缩放到128×128,并编码成32×32的隐式特征。MRAA不是直接估计一个单一的、全局的像素级运动场,而是对连续帧之间每个局部组件的相对运动进行建模,然后通过加权聚合将它们组合起来,产生最终的整体运动场(光流)。CFG通过在生成过程中放大条件的影响,明确地加强了条件的约束力,迫使模型遵循标签,而不是退回到通用的、无条件的运动。
2026-01-07 16:44:08
1133
原创 工业质检只能依赖缺陷样本?PatchCore给出“冷启动”答
通过利用局部感知的块级特征和核心集缩减的记忆库,PatchCore在最大化正常上下文覆盖的同时,缓解了ImageNet偏差和推理瓶颈。通过核心集子采样,PatchCore的推理时间变得显著更快,达到与PaDiM相当或更好的水平,同时保持更优的检测和定位性能。在其他基准上的评估:如表6所示,在mSTC上,PatchCore无需任何数据集特定调整就实现了最先进的异常定位性能,展示了强大的跨领域可迁移性。,一个基于块级别记忆库的异常检测框架,它在测试时最大化对正常模式的覆盖,同时保持计算高效。
2026-01-06 14:10:47
820
原创 当特斯拉FSD在高速狂奔时,SCCA-YOLO如何看清偏远乡村道路的复杂场景?
特斯拉的全自动驾驶系统展示了城市和高速公路场景下的技术潜力,但在广阔的乡村道路上,真正的挑战才刚刚开始。结合了YOLO系列传统的多尺度特征金字塔结构,使网络能够同时检测不同尺寸的目标,这对于乡村道路上可能出现的大型动物和远处的小型标志都至关重要。这种设计通过简单的线性运算生成“影子”特征图,减少了模型的计算需求和参数数量,使网络在保持高精度的同时更加轻量化,更适合在边缘设备上部署。集成了Ghost模块的SCCA-Ghost-YOLO在参数数量大幅减少的情况下,仅损失了微小的精度,验证了轻量化设计的有效性。
2026-01-06 13:59:39
738
原创 为你的 2026 年计算机视觉应用选择合适的边缘 AI 硬件
当然,这一优势伴随着相应的权衡。然而,对于运动持续不断、对图像完整性要求严苛的应用场景——例如自主移动的送货机器人、高速无人机、自动驾驶车辆以及精准操作的机械臂——采用全局快门已非一项可选的优化,而是保障系统可靠性与性能的必备条件。对于机器人应用,特别是在依赖视觉的导航与即时定位与地图构建(SLAM)等任务中,此类图像失真会严重影响空间感知的准确性,导致其难以用于精确的环境理解与决策。然而,对于运动持续不断的应用,如送货机器人、无人机、自动驾驶汽车和机械臂,投资全局快门技术是必不可少的,而非可有可无。
2026-01-05 10:58:33
1085
原创 YOLOv12之后,AI在火场如何进化?2025最后一篇YOLO论文揭示:要在浓烟中看见关键,仅靠注意力还不够
此外,我们引入了一个动态采样器,自适应地增强了模型对困难样本的关注,显著提高了在消防救援环境中尤其具有挑战性的小而模糊目标的检测精度。而其中,YOLO系列凭借其独特的一阶段检测思路、卓越的实时性能和高精度的巧妙平衡,长期以来都是工业界和学术界关注的焦点,YOLO的进化也从未停止。在保证速度的前提下,深度集成多种注意力机制是提升模型在复杂场景下判别力的关键路径。效果:这使得特征重建过程更具内容自适应性,能更好地恢复小目标的细节和轮廓,在存在烟雾模糊、像素损失的情况下,显著提升对小目标和模糊目标的定位精度。
2026-01-05 10:26:03
500
原创 纯视觉的终结?顶会趋势:不会联觉(多模态)的CV不是好AI
这项研究由曼彻斯特大学冯明林团队完成,他们系统分析了CVPR、ICLR和NeurIPS三大会议2023-2025年间接收的26,104篇论文的标题与摘要,通过构建的手工词典与正则表达式匹配,为每篇论文分配最多35个主题标签。时间感知和以人为中心的理解获得关注,视频理解从低基数攀升,姿态、面部和全身分析在过去两年加速,标志着向智能体和以人为中心应用的转变。尽管如此,主要趋势在不同会议和年份间保持一致。结构感知的3D理解也在加强,点云处理略有回升,网格和表面建模稳步上升,显示出对可控、约束感知几何的兴趣。
2025-12-30 17:41:37
996
原创 一文读懂大语言模型家族:LLM、MLLM、LMM、VLM核心概念全解析
论文参考:Google的《PaLM-E: An Embodied Multimodal Language Model》(2023)在机器人控制等具身智能任务上展现了多模态模型的潜力,而《GPT-4V(ision) System Card》(2023)则详细描述了当前最先进多模态模型的能力边界。多模态大语言模型能够处理多种类型的数据输入,每种“模态”代表特定类型的数据:文本、图像、音频、视频等。大型多模态模型是MLLM的更高级形式,不仅能够处理多种输入模态,还能够生成多种类型的输出,如文本、图像、音频等。
2025-12-30 17:26:58
1420
原创 当小龙虾算法遇上YOLO:如何提升太阳能电池缺陷检测精度?
太阳能电池片中的隐裂缺陷对组件模块影响巨大,但在缺陷图像中,这些缺陷所占画面面积比例极小。通过对比表7中不同算法模型的实验结果可以清晰看到:本文提出的CMNS-YOLO在P、R、mAP@0.5、mAP@0.5:0.95指标上显著优于其他算法——与YOLOv8n相比,这四项指标分别提升了0.9、2.0、2.5、1.8个百分点;针对这些问题,贵州警察学院与贵州大学的研究团队提出了CMNS-YOLO模型——将小龙虾优化算法(COA) 与改进的MNS-YOLO深度融合,在保持轻量化的同时实现检测精度突破。
2025-12-30 09:56:01
738
原创 AI如何精准关联照片与抽象平面图?C3数据集迈向3D视觉多模态
这项研究通过构建首个交叉视角、交叉模态对应数据集C3,并提出创新的点图预测方法C3Po,在让AI理解抽象布局与具体视觉场景之间的对应关系上迈出了关键一步。该成果不仅解决了当前计算机视觉工具的一大缺陷,也为机器人技术、导航系统和3D建模等领域的进步提供了新的技术基础。随着更多高质量数据的积累和算法的不断优化,我们有望看到计算机视觉系统在理解复杂空间关系方面取得更大突破,最终实现接近人类水平的跨模态空间推理能力。
2025-12-30 09:29:12
710
原创 摄像头如何“看懂”你的手势?手势识别实现新人机交互
搭载视觉AI系统的设备,例如智能手机、虚拟现实(VR)和增强现实(AR)头显、汽车以及智能家居设备,都可以用手势代替点击、触摸或按键,带来更流畅的用户体验。最后,识别出的手势会被映射到界面上的某个操作,例如滚动、缩放、选择项目、调节音量,或控制AR/VR交互。具体的处理流程可能有所不同,较简单的应用步骤较少,而更复杂的应用则会结合检测、跟踪和姿态估计以获得更高的准确性。它们可以解读更精细的手部动作,并对细微的方向变化做出流畅响应,从而实现更精准的引导和自动化操作。大多数手势可分为两类:静态手势和动态手势。
2025-12-29 10:33:23
724
原创 颠覆认知!遥感船舶检测“越深越好”是误区?LiM-YOLO证明“少即是多”
因此,P5层在带来巨大计算量的同时,其提供的额外语义信息增益微乎其微,反而引入了过多的背景噪声。与YOLOv8x, YOLOv10x, YOLOv12x, RT-DETR-X等当前最先进模型相比,LiM-YOLO以最少的参数量(21.16M),取得了最高的综合检测精度(mAP50-95: 0.600),真正实现了“轻量化”与“高精度”的帕累托最优。面对上述问题,常见的改进思路是“做加法”:在P3-P5的基础上,增加更浅的P2层(步长4) 来捕捉小目标细节,或者增加更深的P6层来获取更大感受野。
2025-12-29 10:08:32
564
原创 YOLO11-4K:面向4K全景图像的高效实时检测框架,CVIP360数据集开源
在CVIP360数据集上的实验表明,YOLO11-4K实现了显著的速度提升,将推理时间减少了近75%,同时保持了强大的检测性能,为360°环境展示了精度与效率之间的有效平衡——由于极端畸变和高分辨率处理的需求,这些环境仍然特别具有挑战性。在整个测试集中,总共检测到1,604个物体,平均尺寸为28.9 × 133.2像素,这证实了模型在高分辨率4K全景图像中进行小目标检测的强大能力,并补充了关于遮挡和极微小物体检测的定性示例。图3展示了YOLO11-4K在室内和室外4K全景场景上的定性检测结果。
2025-12-26 09:29:59
937
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅