- 博客(6813)
- 资源 (2)
- 收藏
- 关注
原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。
2024-05-18 19:15:00
1367
原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇
大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。
2024-05-13 12:24:06
1225
转载 中国第一批没有论文的工科博士毕业了
据悉,吴帆由电子科技大学与中国融通集团第六十研究所联合培养,他的成果成功解决了大功率可编程电源领域 “依赖进口、难以定制” 的行业痛点,目前已在国家重点单位和科研院所试用测试,推动了该领域技术的自主化发展。杨斌财在珠海洪鹤大桥建设中,首创双座串联式斜拉桥设计,研发新型钢阻尼器,创新深水基础无水施工法,成果获国家优质工程奖、李春奖,并应用于5项重大桥梁工程。他的成果融合基础理论与工程实践,成功解决了核材料焊接中的裂纹与气孔问题,经校企联合答辩验证了核心工程价值,也为工科博士的校企协同培养树立了典型示范。
2026-02-14 19:00:51
11
原创 TPAMI‘25 | 武大 & 澳大 PL-CS:聚类友好特征 + 语义感知伪标签,无监督元学习反超有监督 SOTA
在miniImageNet的5-way-5-shot、20-shot、50-shot任务中,PL-CS-MAML的性能竟然超过了对应的有监督MAML,其中50-shot任务提升了4.27%!想象一下,你想把“猫”的照片聚成一类,结果聚类算法把几张狗的照片也塞了进来(噪声样本),同时把一些品种特殊的猫分到了其他类(多样本缺失)。但问题来了:大多数元学习方法都依赖人工标注的数据集,面对互联网上那些没标过的图片(比如随便拍的街景、随手存的动物照片),它们就有点“手足无措”了。
2026-02-14 19:00:51
530
原创 TPAMI‘25 | 武大 & 澳大 PL-CS:聚类友好特征 + 语义感知伪标签,无监督元学习反超有监督 SOTA
在miniImageNet的5-way-5-shot、20-shot、50-shot任务中,PL-CS-MAML的性能竟然超过了对应的有监督MAML,其中50-shot任务提升了4.27%!想象一下,你想把“猫”的照片聚成一类,结果聚类算法把几张狗的照片也塞了进来(噪声样本),同时把一些品种特殊的猫分到了其他类(多样本缺失)。但问题来了:大多数元学习方法都依赖人工标注的数据集,面对互联网上那些没标过的图片(比如随便拍的街景、随手存的动物照片),它们就有点“手足无措”了。
2026-02-14 19:00:51
223
转载 节前最后一波实测,最新模型MiniMax M2.5!
用于汇报的PPT有一点儿让我印象很深刻,那就是最后的一页“建议”,可以看得出M2.5不仅仅只是一个会工作的AI,更是一个知道怎么“懂工作应该怎么做”的AI,它的建议恰好是一个非常好的结尾点,因为只谈现象,不谈解决办法和思路,这个工作其实就不算完。再往下,就是它这次明显更偏“交付导向”。我直接把这个文件夹打包成压缩文件zip发给了M2.5,我算了一下,Excel有一个,子文件夹两个,里面分别有30份左右的文件,至于说左右,是因为有人没交,还有人多交了一份,因此整个zip文件里面有大约60+个文件。
2026-02-13 20:02:21
35
原创 TPAMI 2025 | 空中视觉制导新范式!湖大团队提出 Robust6DoF:无 3D 模型也能精准锁定任意目标
最近,来自中南大学和新加坡南洋理工大学的团队在顶级期刊《TPAMI》上发表了一篇重磅论文,提出了一套名为“Robust6DoF+PAD-Servo”的解决方案,彻底解决了空中高动态场景下的物体跟踪与导航难题。的 trick,让每个像素和对应的3D点“互相对话”,提炼出既能体现颜色特征又包含空间位置的“聚合描述符”。提前给每个物体类别准备一个“标准模板”(比如杯子的通用形状),当检测到新物体时,会对比它和模板的相似性,自动补全被遮挡或模糊的特征。有了增强后的特征,接下来就要找“地标”了。
2026-02-13 20:02:21
237
原创 TPAMI 2025 | 多智能体强化学习发力:ALL-E让每个像素都学会自我增强
(美学引导的低光照增强)范式,首次将图像美学评分作为"奖励",通过强化学习让AI学会"审美"。简单说就是:让AI每次调整图像后,都能收到"这张更美观"或"这张不好看"的反馈,逐步学会拍出人类喜欢的照片。就像下图显示的,当亮度和噪声超过合适范围,人类主观评分会明显下降——这正是现有方法的盲区!未来,当AI不仅能处理图像,还能真正理解"美"的含义,手机摄影、监控安防、医学影像等领域都将迎来新的突破。可以明显看出,ALL-E+(TANet)的结果亮度适中、色彩自然,没有过曝或噪声伪影,视觉体验最接近人类预期。
2026-02-12 19:02:15
550
转载 全网首测!MiniMax M2.5发布,跑OpenClaw实测真香
更让我意外的是,视频里提到的“杏仁状稳定区”和“混沌海洋中的稳定岛”这些概念,它都准确理解了,在代码里做了对应的实现。简单理解是,M2.5 在单模块内的逻辑上几乎没问题,但因为激活参数只有 10B,在处理大型项目时,注意力分配到十几个文件上,难免会有顾此失彼的地方。单个模块内的逻辑几乎没问题,但多个模块之间的一致性维护,就容易出缝隙。对开发者来说,你现有的工具链,不管是在用 Claude Code 写代码,还是用 SDK 搭 Agent,甚至在用第三方工具,都可以无缝切换到 M2.5,不需要改一行代码。
2026-02-12 19:02:15
202
原创 ICCV 2025 | 重新定义轻量视觉骨干!TinyViM 用拉普拉斯混合器,让 Mamba 吞吐量暴涨 2-3 倍
对Mamba前后特征图的频谱分析显示(图2),经过Mamba处理后,特征图的低频分量被显著增强,而高频细节(如边缘、纹理)却被抑制。考虑到网络浅层需更多高频细节、深层需更多全局信息的特性,随网络深度增加逐步提高低频分支的通道占比(四个阶段的分割系数α分别为0.25、0.5、0.5、0.75),动态平衡高低频处理资源。这种设计实现了"局部特征提取-全局上下文建模"的高效协作,在保持轻量化特性的同时,大幅提升了特征表达能力。TinyViM通过频率解耦这一创新视角,成功释放了Mamba在轻量级模型中的潜力。
2026-02-11 19:28:10
304
转载 加入腾讯的姚顺雨发表首篇Paper!
从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。:GPT-5.2 把推理从“low”拉到“high”,反而掉 5.6 %,暴露长链逻辑与指令跟随的失衡。图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别。扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理。
2026-02-11 19:28:10
22
原创 TPAMI 2025 | 跨模态蒸馏新突破:轻量多模态跟踪框架,650万参数实现SOTA性能
而多模态跟踪(RGB+红外/深度/事件相机)就像给系统装上"复眼",不同模态数据互补,鲁棒性直接拉满!在智能监控、自动驾驶等实时场景中,多模态跟踪技术一直面临着"性能与效率"的两难抉择:强大的模型精度高但太笨重, lightweight模型速度快却精度差。论文提出的CMD框架就像给轻量模型(学生)请了位名师(复杂模型),通过四阶段知识传递,让学生既保持轻量又学到真本事!这么强的性能仅用650万参数,在2080Ti上跑126帧/秒,真正实现了"又快又准"!融合多模态特征就像做菜,不同场景需要不同配方。
2026-02-10 19:01:37
402
原创 ICCV 2025 | 南洋理工 Trans-Adapter 横空出世:统一多社区扩散模型,透明图像可控编辑实现新高度
新加坡国立大学与商汤科技的研究团队提出的Trans-Adapter框架,首次实现了基于扩散模型的透明图像直接修复,为该领域带来了革命性突破。其核心创新在于将RGBA图像分解为RGB通道与alpha通道,视作"两帧视频"进行联合处理,通过专门设计的模块实现跨通道特征对齐。现有透明图像修复方案普遍采用"修复-抠图"两阶段流程:先为RGBA图像添加背景进行RGB修复,再通过抠图技术提取透明区域。:通过低秩适应技术,在不改变原模型结构的前提下,赋予模型修复alpha通道的能力。
2026-02-10 19:01:37
314
转载 TMM 2025 | 云大 & 东南大学提出 PIDFusion:PID 控制器驱动,红外 - 可见光融合实现纹理 - 上下文平衡
最近一篇名为《PID Controller-Driven Network for Image Fusion》的论文,就玩出了新花样——把PID控制原理搬进红外与可见光图像融合任务,效果直接吊打一众SOTA方法!它能把特征分成"有用的"(显著特征)和"没用的"(冗余特征),通过循环验证机制确保分毫不差。为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。三者联手,就像给特征融合装了个"自动稳压器",完美平衡纹理细节和上下文信息。
2026-02-09 22:01:52
17
原创 TPAMI 2025 |超矩形嵌入 + 历史引导去偏,RGB 序列 3D 场景图预测实现去偏与可靠双提升
论文的做法非常巧妙:对于<主语,关系,宾语>这样的三元组,主语的超矩形会进行一次"仿射变换"(类似拉伸、平移),宾语的超矩形也会进行针对性变换,两个变换后矩形的重叠部分(交集体积)就代表了它们之间的关系强度。比如如果模型预测了"沙发在桌子前"和"桌子在柜子前",就会被引导着推理出"沙发在柜子前",避免出现逻辑矛盾(如图3所示)。通过高斯核函数分析混淆历史块中的数据,模型能计算每个预测的"不确定性分数":那些位于决策边界附近的样本(比如既像"在上面"又像"挨着"的关系)会被标记为高不确定性。
2026-02-09 22:01:52
286
转载 TPAMI 2025 | 单图搞定噪声建模!对比学习驱动的RAW去噪框架,横扫多数据集SOTA
这篇论文提出的方法堪称"业界清流":不需要复杂的相机校准流程,不用成对的噪声/干净图像,仅凭测试图片就能精准估计噪声,生成逼真的训练数据,让去噪效果飙升!你是否遇到过这样的烦恼:手机拍的照片总带着讨厌的噪点,尤其是在昏暗的灯光下,画面更是糊成一团?比如专门训练模型区分行噪声的差异,或者颜色偏差的不同。简单说就是:给一张测试图,就能自动分析出这台相机的噪声特性,然后生成和真实噪声几乎一样的训练数据。定量指标上,KL散度(衡量分布差异)也是最低的,证明合成噪声和真实噪声的分布最接近。
2026-02-08 20:12:00
29
转载 博士,高校一年15w,企业一年45w,40岁企业退休相当于高校60岁,为什么周围的人还是觉得高校好?
我在高校的八小时工作制*(一周),一年40个教学周上二(准确点说是两个半天,因为学校规定教师一天最多上六节课,所以一周八个课时我要分两天上)休五,一周一个五一小长假,加上总共12周的寒暑假*,这工作与其说上班,不如说是养老得副业(是的,不管从工作时间还是收入结构来看,这工作对我来说都是副业)。又过了10年,时间来到2015年,四川长虹从当年的全国老大,已经沦为了一个半死不活的僵尸企业,小S发现,自己银行账户存的那些钱,好像渐渐变成了废纸,什么也买不了。),对,就连五一五天假,都跟我的课表完美错开。
2026-02-08 20:12:00
18
原创 TPAMI 2025 | 多模态标签 “一把抓”!Wholly-WOOD 实现点 水平框 旋转框统一弱监督定向检测
你想想,从遥感图像里识别飞机、船舶,到工业检测中定位零件,都需要精准的旋转边界框(RBox)来描述目标。旋转30度的船舶,预测角度也该加30度。它的三大核心创新——对称感知学习、知识组合、P2R子网,不仅大幅降低了数据标注成本,还保持了顶尖的检测性能。:在HRSC船舶数据集上,仅用中心点标注,精度只比全监督低1.69%(87.30% vs 88.99%),比现有方法高30%以上。特别是在SARDet-100K这种只有HBox标注的大型数据集上,它能直接生成高精度RBox结果,省去了海量的重新标注工作。
2026-02-07 20:10:36
574
原创 TPAMI 2025 | 新方案!三大核心创新攻克镜头眩光去除痛点,多光源恢复 + 真实数据合成双突破
这些讨厌的"光污染",在计算机视觉里被称为"镜头眩光",不仅影响颜值,还会让自动驾驶的目标检测、监控识别等任务频频出错。同时训练"去眩光网络",努力适应这些"刁难"。最近,TPAMI 2025上的一篇论文《基于对抗曲线学习的图像镜头眩光去除》给出了新思路,不仅能把眩光"擦"得干干净净,还能保住画面里的每一个光源,甚至换个手机拍的图也能完美处理!**画面容易"过曝"**:就像图1左边那样,强光地方一片惨白,细节全没了,因为它没考虑相机的"自动曝光"和"色调映射"(简单说就是相机处理光线的独特套路)。
2026-02-06 19:40:45
400
原创 TPAMI 2025 | YOLO 家族再升级!MS-Block+GQL 双 buff,多尺度检测效率刷新纪录
最近TPAMI 2025接收的YOLO-MS,直接颠覆了传统多尺度特征学习的思路,不仅在COCO数据集上狂甩YOLOv7、v8和RTMDet,还能当即插即用模块给其他YOLO模型"续命",小模型也能轻松拿捏42%+AP!对于实时目标检测来说,YOLO-MS不仅提供了一个性能更强的模型,更给出了一套全新的设计思路——多尺度学习不该只靠顶层架构优化,更要深入到基础模块和卷积配置中。之前大家用卷积核都是"一视同仁",要么全用3×3小核,要么盲目加大核,但YOLO-MS发现:不同阶段需要不同大小的卷积核!
2026-02-05 23:14:52
275
原创 TPAMI 2025 |告别全标注!T2I-PAL 以文本驱动合成图像,刷新多标签图像识别参数高效微调上限
未来,随着文本到图像生成模型的不断进步,相信这种方法会在更多场景中发挥重要作用,让AI看图识物越来越精准,给我们的生活带来更多便利。它的核心思路特别巧妙:利用预训练的文本到图像生成模型,从文本字幕生成逼真多样的图像,以此来缩小文本和图像之间的模态差距。这篇论文提出的T2I-PAL方法,通过利用文本到图像生成模型生成合成图像,结合提示调整和适配器学习,成功解决了多标签图像识别中的模态差距问题。而且,T2I-PAL还有两个巨大的优点:一是不需要有完整语义标注的原始训练图像,大大减轻了手动标注的工作量。
2026-02-04 19:57:46
626
转载 TCSVT 2025 | 重磅!MDNet:扩散自蒸馏 + Mamba 有效融合,RGB-T 场景解析效率精度双突破
今天要给大家介绍的这项研究,提出了一种融合RGB与热红外数据的创新方案——MDNet,用Mamba机制和扩散模型破解了多模态融合的效率难题,在城市场景密集预测任务中实现了性能突破!MDNet的出现,为多模态密集预测领域提供了新的研究思路——用Mamba实现高效全局建模,用扩散蒸馏提升判别能力,这种"效率+精度"双驱动的设计理念,很可能成为未来多模态学习的重要方向。为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
2026-02-04 19:57:46
29
原创 TPAMI 2025 傅里叶残差引导+两阶段映射:DA-RCOT重构统一图像复原范式
这项发表在TPAMI 2025的研究,用数学中的"最优传输"思想解决图像复原难题,让一个模型就能搞定多种退化问题,还能完美保留图像细节!你是否遇到过这样的困扰:一张照片可能同时被噪声、雨雾、模糊等多种问题缠身,而普通的修复工具要么只能处理单一问题,要么修复后画面变得模糊不清?简单说,就是找到一种"最优运输方案",把退化图像的像素"搬运"到干净图像的对应位置,同时保证"运输成本"最低。图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别。
2026-02-03 22:35:36
392
转载 TGRS 2025 | 多模态特征融合新思路:SCENet 用 LSE-FPN 锐化边缘,相似小目标识别大升级
更关键的是,在大型车辆和集装箱这对"双胞胎"上,SCENet的SCA指标提升了2.5°,说明区分能力显著增强。SCENet通过"增强边缘细节"和"强化类别区分"的双策略,成功解决了小目标中相似类别的误检问题。举个例子:当模型把卡车误判成集装箱时,SCA损失会"扣分",直到模型能明确区分两者——不仅知道它们不一样,还能自信地给出判断。这个架构就像给模型装了"高清眼镜"和"智能大脑":前者让小目标边缘更清晰,后者让模型在判断时更果断,不把相似类别弄混。光有清晰的边缘还不够,模型还得知道"谁是谁"。
2026-02-03 22:35:36
32
原创 <span class=“js_title_inner“>TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA</span>
但今天要给大家介绍的这篇TPAMI 2025最新论文,用一种全新的思路破解了这个难题——通过捕捉像素间的“不一致”痕迹,让所有伪造区域无所遁形!这样造出的“伪伪造图像”语义上完全合理,但像素级存在细微矛盾,强迫模型专注学习这种底层痕迹,而不是死记硬背“天空不能出现在地面”这种语义规律。尤其在AIGC生成的高逼真伪造图像上,传统方法经常把整个图像标为“可疑”,而新方法能精准揪出被篡改的局部区域,比如凭空添加的物体、修改的背景等。毕竟在这个“眼见不一定为实”的时代,能看穿像素级谎言的技术,实在太重要了!
2026-02-02 10:03:15
641
转载 【IEEE计算机会议盘点】2026年上半年好投EI会议推荐:计算机视觉、区块链、算法、人工智能、大数据等主题火热征稿中!
SPIE出版| 2026年机器视觉、检测与三维成像技术国际学术会议(MVDIT 2026)IEEE出版 | 2026年计算智能与机器学习国际学术会议(CIML 2026)IEEE出版 | 2026年智能感知与自主控制国际学术会议(IPAC 2026)IEEE出版|2026年区块链技术与基础模型国际学术会议(BTFM 2026)2026年计算力学与智能系统国际学术会议(CMSS 2026)2026年能源与基础设施人工智能国际会议(AIEI 2026)检索类型:IEEE Xplore, EI, Scopus。
2026-02-02 10:03:15
80
原创 TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA
但今天要给大家介绍的这篇TPAMI 2025最新论文,用一种全新的思路破解了这个难题——通过捕捉像素间的“不一致”痕迹,让所有伪造区域无所遁形!这样造出的“伪伪造图像”语义上完全合理,但像素级存在细微矛盾,强迫模型专注学习这种底层痕迹,而不是死记硬背“天空不能出现在地面”这种语义规律。尤其在AIGC生成的高逼真伪造图像上,传统方法经常把整个图像标为“可疑”,而新方法能精准揪出被篡改的局部区域,比如凭空添加的物体、修改的背景等。毕竟在这个“眼见不一定为实”的时代,能看穿像素级谎言的技术,实在太重要了!
2026-02-02 10:03:15
479
原创 <span class=“js_title_inner“>TPAMI 2025 | 浙大 &; 苏黎世大学 REFID:事件相机驱动,插帧 + 去模糊统一框架刷新 SOTA</span>
最近,来自多个顶尖机构的研究团队联合发表了一篇名为《A Unified Framework for Event-Based Frame Interpolation With Ad-Hoc Deblurring in the Wild》的论文,提出了一个能同时解决视频帧插值和去模糊的神奇框架。更厉害的是,它还附带了一个超高分辨率的数据集,让相关研究有了更棒的测试平台。不管输入的是清晰还是模糊的视频帧,它都能搞定。简单说,就是哪个输入帧离要生成的中间帧更近,哪个帧的信息就用得多,这样生成的画面自然更准确。
2026-02-01 19:03:02
650
转载 <span class=“js_title_inner“>大模型与具身智能论文学习交流群</span>
篇最新的大模型与具身智能领域的高质量论文解读文章,涵盖ICML、NeurIPS、CVPR、ICLR、最新Arxiv等。【大模型与具身智能】 微信公众号是一个面向全体学生和医学工作人员/研究员的论文阅读分享交流平台,目前坚持每天推送。大模型预训练与微调、具身感知与交互、大模型驱动具身决策、具身智能场景适配等。大模型轻量化与具身部署、具身智能评测、大模型与具身智能跨领域应用、机器人、多模态大模型与具身融合、具身机器人学习、昵称+学校/公司+研究方向!昵称+学校/公司+研究方向。
2026-02-01 19:03:02
20
原创 <span class=“js_title_inner“>TPAMI 2025 | 浙大 &; 苏黎世大学 REFID:事件相机驱动,插帧 + 去模糊统一框架刷新 SOTA</span>
最近,来自多个顶尖机构的研究团队联合发表了一篇名为《A Unified Framework for Event-Based Frame Interpolation With Ad-Hoc Deblurring in the Wild》的论文,提出了一个能同时解决视频帧插值和去模糊的神奇框架。更厉害的是,它还附带了一个超高分辨率的数据集,让相关研究有了更棒的测试平台。不管输入的是清晰还是模糊的视频帧,它都能搞定。简单说,就是哪个输入帧离要生成的中间帧更近,哪个帧的信息就用得多,这样生成的画面自然更准确。
2026-02-01 19:03:02
546
转载 IEEE RAL 2026 | 西工大 & 奥克兰大学提出 RewardRRT:奖励机制 + 卡尔曼滤波,窄域多自由度机器人路径规划 SOTA
先来看核心的算法总体结构图(图1),这张图能帮我们快速看懂RewardRRT的核心逻辑:它把RRT算法的采样树当成“智能体”,先用奖励函数给每个采样状态打分,再靠卡尔曼滤波预测奖励变化,动态调整采样概率,最后根据预测的奖励值决定优先扩展哪棵树——不是传统的交替扩展,而是盯着奖励低的树重点“攻坚”,从根上提升探索效率。想象一下,21个自由度的仿人机器人要在堆满障碍物的室内摘苹果、在工业管道里检测缺陷,从初始位置到目标位置,每一步都得避开碰撞,还要快、准、稳——这背后的路径规划,一直是机器人领域的老大难问题。
2026-02-01 19:03:02
20
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
484
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
529
转载 大模型时代,为什么工业界还在疯狂用 YOLO?算完这笔账,我沉默了
咱们搞算法的都知道,以前的模型( 比如 YOLOv8/11)在“看”图时,会生成成千上万个重叠的候选框,然后用非极大值抑制(NMS)过滤掉多余的框。比如,我们用云端那个牛逼但昂贵的 GPT 去自动标注海量数据,教出轻量级、反应快的 YOLO26,然后把学生派到世界各地的摄像头里去干活。它融合了传统 SGD 的稳定性和大模型训练的一些优化思路,能让模型收敛得更快、更稳,尤其在处理复杂数据集时,调参的头疼程度会下降不少。它采用了全新的端到端无 NMS 架构,模型输出的就是最终结果,不再需要复杂的后处理。
2026-01-31 19:02:47
17
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
301
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
584
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
273
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
280
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
568
原创 TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。
2026-01-31 19:02:47
496
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅