- 博客(3291)
- 资源 (78)
- 收藏
- 关注
转载 博士后 | 西湖大学机器智能实验室招聘,具身大模型、强化学习方向
西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB),是国内知名的机器人具身智能实验室,专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力。研究Data Efficiency相关的深度强化学习基础算法,包括但不限于小样本强化学习、元强化学习、迁移强化学习、持续强化学习、鲁棒强化学习等,发表人工智能顶会论文。对来杭工作符合条件的全球本科及以上学历应届毕业生(含毕业5年内的回国留学人员、外国人才),杭州市发放生活补贴,其中博士10万元。
2025-05-17 20:44:00
1
转载 92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍
本文介绍了 VITA-Audio,这是一个轻量级框架,其核心在于引入独立高效的多重跨模态令牌预测(MCTP)模块,能够直接从文本 Token 与 LLM Hidden States 中生成音频响应,无需依赖 LLM 的全局语义建模,仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块,保以维持文本与音频 Token 的合理配比(1:2),随后逐步激活部模块,通过动态调节文本/音频 Token 输出比例,实现生成速度与质量的最优平衡。
2025-05-15 15:32:36
13
转载 哈工大,西工大,武大,广西师大联合提出卷积神经网络在图像超分辨上的应用(174篇论文应用)
随后,根据线性和非线性的缩放图像方式给出了基于插值的卷积神经网络图像超分辨方法(双三次插值算法、最近邻插值法、双线性插值算法)、基于模块化的卷积神经网络超分辨方法(转置卷积、亚像素层和元上采样模块),分析这些方法在非盲图像超分辨和盲图像超分辨问题上的动机、原理、区别和性能最后,本文给出卷积神经网络在图像超分辨的未来研究、挑战和总结全文。因此,轻量级网络的图像超分辨研究非常有必要的。由于复杂的拍摄场景、运动的拍摄设备以及运动的目标,导致单源的图像引导深度网络获得图像超分辨模型在真实场景中的应用受限。
2025-05-14 21:06:23
18
转载 CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。
2025-05-13 12:31:11
9
转载 字节跳动提出Mogao模型:开启 AIGC 从“能写会画”到“边写边画”
另外还使用了视频帧和相应字幕的数据,研究人员训练了一个视觉-语言模型,用以为视频中抽帧采样的每一帧生成对应的字幕说明,最终将图像帧和生成的字幕交织在一起,构成训练样本。Mogao通过创新的架构设计和高效的训练策略,成功实现了交错多模态生成,在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如,它可以生成一段描述森林的文字,随后生成一张森林的插图,然后继续生成下一段文字,形成一个连贯的故事。的创新模型,它通过统一框架实现了交错多模态生成,为AI在创意和内容生成领域的应用开辟了新可能性。
2025-05-12 22:05:49
95
转载 T-Rex Label 上线 DINO-X 模型预标注,52CV 粉丝专属福利来袭
为了进一步拓展 AI 标注的能力边界,T-Rex Label 在已有 T-Rex2 智能标注的基础上,正式上线 DINO-X 预标注功能,这意味着用户只需选择图片、定义需要标注的类别,即可一键批量自动标注。(1)老粉福利:在文章发布之前已经关注“我爱计算机视觉”公众号的粉丝,在提供 T-Rex Label 用户 ID 后,将免费获得价值 50 元人民币的 T 豆(共计 1000 颗 ,使用预标注功能每张图片需消耗 3 颗 T 豆,即可标注约 330 张图片)。图3 DINO-X 的目标检测性能指标对比。
2025-05-09 18:10:44
25
转载 KuaiMod | 更高准确率、超低举报率的工业级自动化短视频质量判别框架
在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。这意味着,只有能够真正。1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。
2025-05-09 18:10:44
32
转载 ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,加速视频生成
为此,研究者对这两个模块进行了算子优化,QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现,平均加速比为 7.4 倍,。该方法通过将张量从帧为主的布局转换为 token 为主(token-major)的布局,使得 Temporal Head 所需的 token 在内存中呈现连续排列,从而优化了内存访问模式。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数据,即同一帧的所有 token 连续存储,而不同帧的相同位置的 token 则分散开来。
2025-05-08 13:32:35
24
转载 TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络
受到堆叠多层3 * 3卷积可获得更大感受野的启发,我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。如表10所示,为了验证近似误差的影响,我们在Swin的窗口内对softmax-attention进行泰勒展开,我们发现,对softmax-attention进行更高阶的展开能取得更好的性能,这可能时因为更优的数值近似和attention map具有更高的秩。理论上,通过学习的全秩,可以提高T-MSA++的注意力图的秩,从而在大多数情况下实现更高的秩,并且T-MSA++表现出更丰富的特征表示。
2025-05-07 11:47:32
55
转载 Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处理长音频时,其他模型的性能都有明显下降,而Aero-1-Audio的性能下降最小,展示了其处理长音频的鲁棒性。
2025-05-02 20:20:23
63
转载 Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括。最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。
2025-04-30 15:01:24
37
转载 CVPR25 | CV 微调卷出天际,Mona:我小,我强,我省资源
随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。
2025-04-25 20:40:23
152
转载 专刊征稿:面向机器人持续感知的具身多模态数据融合
投稿截止:October 20th, 2025。投稿开放:October 1st, 2025。面向机器人持续感知的具身多模态数据融合)欢迎大家关注、转发。》(CCF-C类期刊)上组织的。关注公众号,发现CV技术之美。同济大学MIAS Group。
2025-04-24 16:43:10
72
转载 TMI 2025 | 最新医疗图像分割模型:Zig-RiR,精准分割二维、三维医疗图像
在二维ISIC数据集和三维ACDC, Synapse数据集上,Zig-RiR都表现出极高的分割性能,表明它在提取目标的边界和区域时非常准确。Zig-RiR模型通过创新的嵌套结构和锯齿状扫描设计,成功实现了对二维、三维医疗图像的高效率且精准的分割,为该领域提供了先进的解决方案。,提出一种新颖的医疗图像分割模型 Zigzag RWKV-in-RWKV (Zig-RiR),可用于精准分割二维、三维的医疗图像。Transformer的自注意力机制导致二次方级别的计算复杂度,限制了模型在高分辨率图像上的应用。
2025-04-24 16:43:10
354
转载 ICLR2025 | 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!
相比现有方法,FaceShot 在身份保持(ArcFace)、图像质量(HyperIQA)和动作还原(Point Tracking)等多个指标上均取得领先,尤其在结构不规则、风格差异大的角色(如玩偶、卡通形象、动物)上表现更为稳定。
2025-04-23 12:07:02
116
转载 UniToken:为统一多模态理解与生成打造信息完备的视觉表征
通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。ViT端到端微调:在模型的全训练流程中,动态微调连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,进而适应广泛的任务场景。
2025-04-22 14:33:18
93
转载 自回归的捍卫者来了:复旦联手字节Seed开源纯AR图像生成模型
最后是关于效率问题。带着好奇的心态,来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力,他们保持“Next-token prediction”这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。离散的token必然带来更多的信息损失:当下改进视觉tokenizer也是一个备受关注的方向,最新的方法无论是离散或连续都可以取得非常好的重建效果(至少不会制约生成模型),因此相信这一点不会是制约两条路线的核心原因;
2025-04-21 19:42:16
112
转载 解锁 AI 开发新高度:AI 工作站与 NVIDIA AI Workbench 全栈解决方案
凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。性能高达上一代的 3 倍,支持 FP4 精度,可缩短 AI 模型处理时间,同时减少显存占用,实现 LLM 和生成式 AI 的本地微调。
2025-04-18 13:27:55
68
转载 斩获GitHub2.2k星!腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5
通过缓解模态之间的固有冲突,VITA-1.5 在视觉和语音理解方面实现了强大的能力,能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV 中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题,并执行视觉推理任务。在 VITA-1.5 的推理阶段,仅使用 Codec 的解码器。
2025-04-18 13:27:55
583
转载 “实习生也月入过万”,AI行业严重缺人?
全程实战源代码讲解,课程通俗易懂,所有算法均给出相应的实战案例及应用项目,内容覆盖200+案例,30+应用场景。但除了努力之外,我们更应该清楚的知道, 哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有一套实用的课程用来跟着学习是非常有必要的。我们将由浅入深的讲解视觉必备基础知识点、以及大厂面试必问的实战项目等全面细致的讲解,相信能给你带来启发和收获!拥有 1-3 年工作经验的,10K 是底线,25K 是常态,在 30 岁前年薪 50W+ 的也大有人在。确保你掌握的永远是当下最新最前沿的内容。
2025-04-16 12:31:18
1372
转载 IJCAI 2025 深度伪造检测、定位、可解释性研讨会暨挑战赛正式启动!
同时,研讨会还专设深度伪造检测与定位挑战赛,分设图片赛道和音视频赛道,旨在弥补现有检测算法在精准定位伪造区域与多模态音视频协同伪造识别方面的短板,提升AI时代内容安全水位。研讨会将汇聚全球顶尖学者,共同攻克多模态伪造、弱监督伪造定位、伪造可解释性、生成式AI对抗与防御等核心技术瓶颈,推动建立可验证、可追溯的生成式AI内容安全分析体系。蚂蚁数科联合新加坡科技研究局人工智能前沿研究中心,南洋理工大学,清华大学,中科院自动化所,合肥工业大学,安徽省数字安全重点实验室等多家机构。关注公众号,发现CV技术之美。
2025-04-16 12:31:18
273
转载 画质理解新突破!北大字节提出Q-Insight,让大模型深度思考推理!
通过这种创新思路,Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。Q-Insight首次将强化学习引入图像质量评估任务,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;
2025-04-15 22:21:14
121
转载 【重温经典】 MOE模型的早期探索—分层深度卷积网络HD-CNN
列(d)-(f):前3个细分类模块得到的Top-5预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师(https://i.cs.hku.hk/~yzyu/index.html)在UIUC的博士生严志程主导完成,首次在深度神经网络中成功实现了"分而治之"的层次化推理,并达到了当时十分优秀的性能,成为深度学习模型结构创新的经典案例。区分"苹果"和"公交车"易如反掌,因为二者在很多视觉属性上都有显著的差异,但辨别"苹果"与"橙子"则需要更精细的特征捕捉,因为二者的视觉特征较为接近。
2025-04-12 21:57:41
149
转载 时空理解基准STI-Bench:评估MLLMs的精确时空理解能力
包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。MLLMs真的具备精确时空理解能力吗?最新 AI 进展报道。
2025-04-11 16:34:14
56
转载 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
整理了180多个基于学习的方法。将一对红外图像和可见光图像进行融合,这一过程称为红外-可见光图像融合,是计算机视觉领域的一个基础性关键的任务,融合图像具有。这些旨在为红外与可见光图像融合领域的研究人员,工程师和爱好者提供一个核心库,促进红外-可见图像融合技术的进步和协作。我们不仅对大量的IVIF方法进行了分类,还对这些方法进行了极为全面的评价,包括配准、融合及其他后续下游操作等任务的。3)为了阐明面向应用的红外与可见光图像融合方法,我们用分层和结构化的方式系统地概述了技术层面和数据集的最新进展。
2025-04-10 22:38:23
114
转载 【前沿解读】CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值
提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。
2025-04-09 16:12:34
313
转载 CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo
我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,采用 32 次精炼迭代和 416 的最大视差范围。现有方法依赖目标域微调,且受限于网络结构或数据规模。
2025-04-08 21:02:45
636
转载 ACM MM 2025 Grand Challenge | 第二届微动作分析挑战赛(MAC 2025@ACM MM)
微动作(Micro-Action)分析旨在理解人类的非自主行为,在人与人之间的交流和人类情绪状态分析中具有着广泛的应用。本赛道提供了超过17k的微动作视频样本,旨在鼓励参赛者设计鲁棒的微动作识别算法,提高微动作分类的性能。MAC 2025 Camera-ready论文截止:2025年7月29日。MAC 2025源代码提交截止日期:2025年7月11日。MAC 2025论文提交截止日期:2025年7月19日。MAC 2025结果提交截止日期:2025年7月8日。MAC 2025 官方微信交流群:请详见官网。
2025-04-08 21:02:45
163
转载 让AI像人类一样看视频!VideoMind提出长视频推理新范式,性能超越GPT-4o,AK两次转发!代码、数据、Demo全开源!
受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型显著更优的性能,也避免了多模型并行带来的计算开销,从而在确保性能的同时大幅提高了计算效率。
2025-04-07 14:35:44
122
转载 从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。
2025-04-04 18:38:51
235
转载 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展
现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注,覆盖7类目标(如船舶、汽车、行人等)和8种场景(如海洋、湖泊、城市道路等)。RGBT目标检测(如UA-CMDet、CMA-Det)。
2025-04-02 16:24:32
478
转载 ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
LOKI涵盖了图像、视频、3D、文本、音频等多个模态,构建了丰富的任务类型与异常注释体系,可系统评估大模型在合成数据检测任务中的能力与局限。LOKI基准引入了多层次的细粒度标注体系,每个数据样本都附带真实/合成标签,并标注了更精细的异常细节,确保模型在识别异常特征时具备更强的可解释性。:LOKI支持主流多模态模型(如GPT-4o、Claude-3、LLaVA等)使用多种数据格式输入,涵盖视频、图像、文本、音频、点云等,全面评估LMM在复杂数据环境下的泛化能力。
2025-04-01 14:01:13
128
转载 南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法
对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。
2025-03-31 14:02:57
220
转载 拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。
2025-03-28 12:09:27
891
转载 复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!
在评测方面,现有的草图参数化方法使用的评估指标并不一致。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。
2025-03-27 18:31:49
213
转载 CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的。为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发。
2025-03-26 17:31:21
304
转载 ICLR 2025 | 视频编辑最新SOTA!VideoGrain免训练实现多粒度视频编辑
此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如soap-box手推车中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。:如上图(b)所示,在对DDIM inversion过程中的自注意力特征进行K-Means聚类之后,虽然聚类之后的结果是有清晰的布局信息的,但是无法区域不同的实例(比如“左边的男人”和“右边的男人“)。然而,上图(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。总体而言,对于多粒度编辑,
2025-03-26 17:31:21
76
转载 告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存
此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。
2025-03-25 19:51:13
314
转载 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号
论文提出的ContinuousSR框架,创造性地引入了Pixel-to-Gaussian范式,通过高斯建模直接重建连续的高分辨率信号,从而彻底改变了ASSR任务的实现方式。在高斯核的初始化过程中,作者提出了一种动态偏移策略,使得高斯核可以根据图像内容自适应调整位置,从而在复杂纹理区域分布更多高斯核,大幅提升重建细节的质量。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。极快的任意比例渲染:在完成高斯场构建后,模型能够以每比例1ms的速度生成HR图像,达到了现有方法的19.5倍加速。
2025-03-24 15:34:33
526
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人