- 博客(3320)
- 资源 (78)
- 收藏
- 关注
转载 CVPR 25 多模态大语言模型评测教程 | MLLM Evaluation Tutorial
多模态大语言模型(MLLMs)研究成为当前最为热门的课题之一,而如何有效的评估这些多模态基础大模型,已成为“AI的下半场”关注焦点。与前面三轮教程不同的在于,本次教程将会更强调对于MLLM的评测以及基准方面的探讨,以及本方向的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLM Evaluation & Benchmark的介绍,从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。欢迎感兴趣的同学积极参与本次CVPR25线上或者线下的教程。
2025-06-06 21:34:00
6
转载 从视频生成到世界模型:CVPR 2025 重磅教程来了!
🔗 资源地址:https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model。随着 AIGC 的飞速发展,图像生成已经“卷”入日常,视频生成也不再是最初的“抖动幻影”,而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。🧠 它是否具备成为可执行、可交互、可推理的智能中枢?
2025-06-06 18:10:00
4
转载 新增赛道 | ICCV 2025 视觉质量评估挑战赛(VQualA)
GenAI-Bench赛道 主要聚焦于文本生成视频(Text-to-Video, T2V)算法所生成视频的感知质量评估。其中,Multi-Dimensional Quality Prediction分赛道,模型需分别预测四个质量维度的得分,以更细致地刻画生成视频的各方面表现,捕捉更为复杂的质量差异。赛道二:GenAI-Bench: AIGC Video Quality Assessment Track II -- Multi-Dimensional Quality。
2025-06-06 15:25:00
9
转载 统一架构新思考,北大团队UniWorld-V1统一大模型
结果显示,UniWorld-V1 在各类感知任务上表现不俗,甚至在许多方面超越了 GPT-4o-Image。在 WISE 基准上,UniWorld-V1 综合得分 0.55,尤其在“空间”类题材中获得 0.73 分,仅次于 GPT-4o-Image 的 0.89,位列其他统一模型之首,展现了其在整合世界知识生成图像方面的竞争力。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现,它们对高噪图像也一致地识别为鹿,表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。
2025-06-06 13:14:56
8
转载 CVPR 2025开幕倒计时7天!主会全部论文已开放,附打包下载链接!
作为全球最具影响力的人工智能顶级会议之一,CVPR每年都会汇聚来自学术界和工业界的最新研究成果,代表着计算机视觉领域的发展风向标。这些论文涵盖了从图像识别、目标检测、三维重建,到视觉语言模型、生成模型等前沿方向,内容丰富、干货满满。为了方便大家查阅与学习,CV君已第一时间将全部论文下载完毕,有需要的小伙伴可以在公众号后台下载,关键词。GitHub仓库:https://github.com/52CV/CVPR-2025-Papers。另外,细致分类也会陆续整理在GitHub仓库,欢迎关注!
2025-06-05 21:45:00
15
转载 北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式
与其他专注于推理的开源模型(如Vision-R1和Mulberry)相比,VLM-R³在MathVista上展现出竞争力,并在HallusionBench上超越了Mulberry(62.0% vs. 54.1%),表明模型在避免视觉幻觉方面具有更高的可靠性。最后,以上给出了VLM-R³的真实推理样例,如上图所示,VLM-R³根据推理需要,通过对图像区域的定位,分割等在思维链中引入关键视觉区域,形成了图文交错推理链,有效地提升了模型推理的效果。上图展示了两种方法在回答相同视觉查询时的注意力分布模式。
2025-06-05 19:48:32
8
转载 顶会论文下载合集(CVPR 2025全)
链接: https://pan.baidu.com/s/1QjOpvNQFKPR3RW8HZXPu6A。链接: https://pan.baidu.com/s/1jP_vivu6cAxROI0dQ51opQ。链接: https://pan.baidu.com/s/1YUVUqmIP3Y_DIxg4w1OYwg。链接: https://pan.baidu.com/s/1xLVwSZBMwmSfHyZ7HwrjoA。
2025-06-05 17:14:02
2
转载 逆色调映射, ICCV 2025 | AIM Workshop 举办的 ITM 挑战赛启动!
高动态范围(HDR)图像能够真实还原从暗部到亮部的丰富细节,具有更大的亮度范围和色彩深度,为用户提供更真实的视觉体验。然而受限于传统成像设备和存储的限制,我们日常看到的大多数图像或视频仍是低动态范围(LDR)格式,。的目标是将这些现有的LDR图像恢复为HDR图像,从而释放其潜在的视觉信息。这项任务对于老旧图像内容的再利用、视觉感知增强、以及为HDR显示设备制作内容具有广泛的应用前景。在2025年于夏威夷火奴鲁鲁举行的第六届AIM(图像增强前沿技术)研讨会中,我们隆重推出。LDR与HDR的对比。
2025-06-05 12:41:22
7
转载 CVPR 2025 最佳论文候选揭晓:3D领域强势领跑,独占近半数席位
基于此,提出了一种新的混合模型,采用灵活的Student's t分布,并引入了正密度(点积,splatting)和负密度(挖掘,scooping)两种操作。本文提出了一种导航世界模型(Navigation World Model,简称NWM),这是一种可控的视频生成模型,能够基于过去的视觉观测和导航动作预测未来的视觉观测。与传统在单一任务上进行专门设计的3D视觉模型相比,VGGT是一种更简洁高效的统一方法,无需依赖后续的几何优化处理,在不到一秒内即可完成图像重建,并在性能上超越了依赖后处理的现有方法。
2025-06-04 21:45:49
23
转载 ICCV 2025| BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动
视频中包含 360° 全景视频、双目第一视角、单目视角、多通道空间音频、地理位置、时间戳、以及自然语言场景描述,高度还原人类在复杂现实环境中的知觉与行为基础。两个挑战赛均在平台Kaggle上举办。BinEgo‑360° 挑战不仅关注算法性能,也关注方法的泛化能力和跨模态鲁棒性,鼓励来自学术界与工业界的研究者提出创新性方法,提升 AI 在真实复杂世界下的理解与决策能力。两个任务聚焦于现实生活中高频、连续、多模态交互的视觉理解场景,挑战参赛者在跨模态信息建模、空间感知融合、时间动态建模等方面的综合能力。
2025-06-04 12:52:04
4
转载 【征稿&挑战赛】ACM MM 2025 第一届 “软体机器人视觉语言” 研讨会&挑战赛
系统输入包括自然语言指令与多视角视觉观测,其中指令明确待操作物体及其目标位置,机器人需先基于视觉观测对目标物体进行识别定位,继而执行动作将其运送至指定位置,当物体准确到达目标位置时,即视为操作成功。在该基准中,软体机器人被建模为可在三维空间自由运动的单一Cosserat杆(在任务1中作为柔性机械臂,在任务2中作为柔性移动体)。在该任务中,智能体需处理包含视觉观测与自然语言指令的同步多模态输入,要求将视觉-语言模式与软体动力学建模进行跨模态对齐,将指令转化为由连续介质力学动作。为核心的具身智能领域发展。
2025-06-03 14:25:30
18
转载 揭秘FG-CLIP:细粒度+难负样本,高质量图文对齐数据集FineHARD开源发布
FineHARD数据集不仅包含了常规的图像“短文本”描述(平均长度约20个词),同时为了弥补短文本描述细节缺失的问题,FG-CLIP团队基于多模态LMM模型为数据集中的每张图像生成了包含场景背景、对象属性及空间关系等详细信息的“长文本”描述(平均长度 150个词+),显著提升了全局语义密度。为了定量分析FineHARD数据集的特点,我们与一些业界常用的数据集,如Flickr30k,CC3M和COCO在图像,文本描述,目标bounding box和难负样本等四个维度进行了对比,如下图所示。
2025-06-03 14:25:30
13
转载 ICCV 2025 DRL4Real 解耦表征学习与可控生成研讨会,竞赛与征稿已开启
每个样本由这5个摄像头拍摄的视频中分别提取的100帧组成,同时在8个关键因素上有变化:车辆速度(加速、匀速、减速)、天气条件(晴朗、雾、小雨)、光照和其他环境因素。包含约14,000张图像,涵盖13个不同类别:汽车、猫、牛、狗、鹰、人脸、花卉、水果、马、鸽子、树木、蔬菜,以及延时摄影。DRL4Real研讨会旨在汇集学术界和工业界的研究人员和从业者,讨论和探索解耦表征学习和可控生成领域的最新趋势、挑战和创新。DRL4Real数据集专为解耦表征学习和可控生成而设计,涵盖多种现实场景和多样化的解耦因素。
2025-06-02 16:26:22
6
转载 CVPR 2025 Highlight l 北大团队开源视觉搜索方法 DyFo,无需训练,提升多模态大模型细粒度理解能力
DyFo 模拟人类视觉搜索策略,基于蒙特卡洛树搜索(MCTS)在多模态大模型与视觉专家之间实现高效协作,引导模型在多轮交互中动态调整关注区域,从而更准确地理解图像中的关键细节,显著提升模型在细粒度视觉任务中的表现。DyFo 模拟人类视觉搜索行为,结合蒙特卡洛树搜索(MCTS),在多模态大模型与视觉专家模型间实现高效协作,逐步聚焦关键区域,有效过滤无关信息,提升细粒度理解能力。与视觉专家的对比实验表明,DyFo不仅从专家的视觉能力中获益,还能通过LMMs的参与弥补专家的局限性,实现互补增强。
2025-06-01 09:20:24
48
转载 第六届CSIG图像图形技术挑战赛—红外视频卫星空中动目标检测赛道启动报名
已有的红外视频数据大多是近地面观测视角,捕捉到的目标距离通常较近,低信杂比目标样本较少,制约了对弱小目标探测技术的发展,亟需弥补领域数据的不足。参赛队伍根据红外小目标图像特点自行设计相关的算法,利用主办方所给的红外小目标图像数据集进行模型训练,最终以召回率(Recall)、精确率(Precision)和F1分数作为评价指标,以及轨迹完整度和轨迹准确度作为附加评价指标,衡量参赛队伍算法模型性能。精确率,定义为正确检测的目标数量与算法检测输出的目标总数量(正确检测目标数量与虚警目标数量之和)之比。
2025-06-01 09:20:24
11
转载 ICCV 2025 视觉质量评估挑战赛(VQualA)启动
优胜团队将获得奖项,并受邀向VQualA 2025研讨会提交挑战赛论文,录用论文将收录至ICCV 2025 Workshops会议文集。优胜团队将获得奖项,并受邀向VQualA 2025研讨会提交挑战赛论文,录用论文将收录至ICCV 2025 Workshops会议文集。本次"视觉质量对比"赛道旨在通过利用大型多模态模型(LMMs)的推理能力,在开放式比较场景中突破图像质量评估(IQA)的现有边界。21名参与者的主观评分(经异常值过滤,原始23名) 数据集同时提供平均意见分数(MOS)和个体评分分布。
2025-05-31 12:13:08
90
原创 哈工大、西工大、福大、澳大、港中文联合提出一种树形卷积神经网络的图像超分辨方法
为了防止获得结构信息的不足,余弦用来提取跨域信息,提高图像超分辨性能。为了防止局部关键信息的丢失,余弦技术用来提取方向特征的相似性,促进更多的局部显著性信息,以恢复更高质量图像。该方法利用树形结构引导深度网络,通过提高重要节点作用来寻找到关键网络层,以扩大关键层次信息关联性来提高恢复图像超分辨模型的自适应性。该方法能利用不同树的关联来寻找关键的结构信息的作用,提高图像超分辨性能。余弦技术能用来提取跨域信息,提取局部的显著性信息来促进更鲁棒的结构信息,利于恢复高质量图像。最新 AI 进展报道。
2025-05-31 08:35:00
277
转载 ICCV 2025第一届“多模态推理与慢思考:迈向二类系统及更高层次(MARS2)”
未发表论文(ICCV 2025会议格式)或已发表工作的摘要/海报,内容涵盖但不限于上述主题。大型推理模型(LRMs)的突破性进展正推动多模态智能迈向新高度,但其在。:多模态推理、慢思考范式、指令驱动模型、开放世界泛化。:美国夏威夷檀香山(与ICCV 2025同期)之间仍面临关键挑战。的实践路径(思维链/神经符号推理/多步推断)二类系统(System 2)级推理。(ModelScope社区)(INSAIT索非亚大学)(新加坡南洋理工大学)(中国科学院自动化所)Workshop简介。Workshop简介。
2025-05-30 13:28:34
28
转载 博士招生 | 西湖大学人工智能与生物医学影像实验室招募,多模态大模型方向
实验室负责人杨林博士现任西湖大学终身教授(Tenured Professor),近年来在Nature Machine Intelligence、Nature Medicine、TPAMI等国际期刊及CVPR、MICCAI、ECCV、ICLR等顶级会议论文集上发表科研论文一百余篇,引用次数已达一万余次,曾获MICCAI会议青年科学家奖项(Young Scientist Award)及MICCAI会议青年科学家最佳论文奖(Young Investigator Best Paper Award)。
2025-05-30 13:28:34
26
转载 TPAMI 2025 | 在4D时空中追踪万物!国防科大提出首个长时场景流估计方法 SceneTracker
通过详细的实验,SceneTracker在处理3D空间遮挡和抗深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。从图4可以看出,面对相机和场景中动态物体同时进行的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。框架的第一步是标记感兴趣点,我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。我们的目标是跟踪一个3D视频中的3D点。
2025-05-29 11:31:07
25
转载 智源研究院、中科院自动化所、大连理工联合发布ETT:端到端调优重塑视觉tokenizer优化范式
在现有的多模态预训练框架中,如 Emu3 等工作,虽然通过将图像、文本等多模态数据编码为离散 tokens 实现了统一的序列建模,但在实际操作中,这些方法仅仅利用了冻结的视觉 tokenizer 的离散索引,这不仅极大地浪费了视觉 tokenizer 的丰富特征表示能力,还阻碍了端到端训练的实现,使得视觉 tokenizer 无法根据下游任务的具体需求进行针对性优化。这表明 ETT 能够在保持图像重建质量的同时,增强视觉 tokenizer 的语义表达能力,为进一步的多模态任务提供更优质的视觉表示。
2025-05-28 13:51:12
17
转载 自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!
在高置信度场景,直接输出简短答案,提升推理效率。实验表明,在多模态(如DocVQA、ChartQA)和文本推理(如GSM8K、MathQA)任务中,CAR的token使用量较纯长文本推理减少45%以上,平均准确率提升6%-8%,在Qwen2.5、Llama3.1等模型上均优于基线方法,尤其在数学推理任务中显著减少冗余步骤。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推理:首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。
2025-05-27 19:44:27
23
转载 CVPR 2025 | 单目人头重建最新SOTA方法!清华与IDEA发布HRAvatar:高质量可重光照头像化身
为实现真实重光照,该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性,并引入反照率伪先验以更好解耦材质信息,使用简化的BRDF物理模型进行着色。相比3DGS 使用球谐函数建模点的外观,该方法采用一种新的外观建模方法,将外观分解为三个属性:反照率、粗糙度 和菲涅尔基础反射率,并采用BRDF 物理渲染模型进行着色。现有面部跟踪方法获取的表情参数不够准确,为解决表情参数误差影响面部重建质量的问题,该方法提出使用表情编码器,更精确提取表情参数。
2025-05-27 13:54:14
26
转载 多模态文档理解新挑战!字节跳动、华中科技大学联合发布WildDoc基准,揭示真实场景下MLLMs的文档理解鲁棒性短板
WildDoc选取了3个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。收集更多的真实世界文档图像,丰富训练数据集,让模型在更多的“实战”中积累经验,提升性能。
2025-05-26 13:28:47
30
转载 【征稿&挑战赛】ACM MM 2025 第一届“多模态大模型统一理解和生成”研讨会&挑战赛
投稿须采用ACM MM 2025会议模板,论文长度可为4到8页(不含参考文献),无需区分长短论文。不同于传统将理解与生成分而治之的思路,MUCG 专注 一体化 MLLM 的最新进展和未来蓝图,欢迎学界与业界同行共同碰撞思维、共创多模态 AI 新纪元!多模态大语言模型(MLLM)取得了飞速发展,然而理解与生成仍被割裂在不同范式之中。• 💎 Scope-B: 单模态全才(图像、视频、音频、3D 等专项能力)多模态大模型统一理解和生成”研讨会与挑战赛(MLLM-MUCG 2025)
2025-05-25 20:46:32
22
转载 用于图像分割的自监督学习(Self-Supervised Learning)方法综述
对语义分割而言,通过像素级自监督任务(如CPC的密集预测、生成型补全等)可获得更精细的特征,有研究将局部对比学习(如PixelContrast、DenseCL等)应用于密集分割。MoCo/BYOL/SwAV 等:尽管本综述侧重三类任务,上述方法后续涌现了动量对比(MoCo)、自举对比(BYOL)、SwAV(交换视图聚类)等改进,它们均围绕实例对比或聚类学习进一步提升表示能力,但核心思想仍是最大化相似视图间一致性。实例分割任务则可能结合区域级的SSL任务,例如利用对比学习或伪标签生成来学习实例级特征。
2025-05-22 19:23:29
44
转载 CVPR 2025 | 中科大提出基于上下文调制的神经视频压缩
具体地,计算导向上下文和传播上下文在全局与局部特征空间上的余弦相似度,并构造成损失函数:全局特征的余弦相似度希望越大越好(鼓励全局信息对齐),而局部特征的余弦相似度则希望降低(鼓励细节特征差异),以保证两类上下文的互补性。例如,在表1所示测试结果中,DCVC-DC和DCVC-FM的平均BD-Rate分别为-14.1%和-9.9%,而所提出的DCMVC达到了-19.4%;在周期为-1的设置下(表2),DCVC-DC和DCVC-FM平均分别为-9.3%和-12.6%,而DCMVC则提高到-22.7%。
2025-05-21 22:28:23
56
转载 ICML2025 | 细粒度图文对齐突破,360人工智能研究院发布全新一代图文跨模态模型FG-CLIP,开源并可商用
当前普遍使用的图文跨模态模型如OpenAI CLIP,EVA-CLIP等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。例如,区分“一只黑色的狗”与“一只深棕色的狗”,或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异,往往会让模型陷入困惑。视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石,如多模态大语言模型,图像生成模型,视频生成模型等,都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。
2025-05-20 18:05:56
80
转载 Medical Image Analysis:医学图像分割最新进展综述
医学图像分割(Medical Imaging Segmentation,MIS)在计算机辅助诊断、治疗规划和疾病监测等领域具有关键作用,但由于数据获取受限、标注复杂、目标结构多样以及模态差异等因素,要得到准确的分割结果依然困难。相关仓库:https://github.com/faresbougourzi/Awesome-DL-for-Medical-Imaging-Segmentation。像素级标注耗时费力,需多位专家反复校验,标注要求极高。:模型复杂、对资源依赖大,亟需轻量、高效、可解释的部署方案。
2025-05-19 21:05:22
126
转载 博士后 | 西湖大学机器智能实验室招聘,具身大模型、强化学习方向
西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB),是国内知名的机器人具身智能实验室,专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力。研究Data Efficiency相关的深度强化学习基础算法,包括但不限于小样本强化学习、元强化学习、迁移强化学习、持续强化学习、鲁棒强化学习等,发表人工智能顶会论文。对来杭工作符合条件的全球本科及以上学历应届毕业生(含毕业5年内的回国留学人员、外国人才),杭州市发放生活补贴,其中博士10万元。
2025-05-17 20:44:00
51
转载 92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍
本文介绍了 VITA-Audio,这是一个轻量级框架,其核心在于引入独立高效的多重跨模态令牌预测(MCTP)模块,能够直接从文本 Token 与 LLM Hidden States 中生成音频响应,无需依赖 LLM 的全局语义建模,仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块,保以维持文本与音频 Token 的合理配比(1:2),随后逐步激活部模块,通过动态调节文本/音频 Token 输出比例,实现生成速度与质量的最优平衡。
2025-05-15 15:32:36
1038
转载 哈工大,西工大,武大,广西师大联合提出卷积神经网络在图像超分辨上的应用(174篇论文应用)
随后,根据线性和非线性的缩放图像方式给出了基于插值的卷积神经网络图像超分辨方法(双三次插值算法、最近邻插值法、双线性插值算法)、基于模块化的卷积神经网络超分辨方法(转置卷积、亚像素层和元上采样模块),分析这些方法在非盲图像超分辨和盲图像超分辨问题上的动机、原理、区别和性能最后,本文给出卷积神经网络在图像超分辨的未来研究、挑战和总结全文。因此,轻量级网络的图像超分辨研究非常有必要的。由于复杂的拍摄场景、运动的拍摄设备以及运动的目标,导致单源的图像引导深度网络获得图像超分辨模型在真实场景中的应用受限。
2025-05-14 21:06:23
59
转载 CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。
2025-05-13 12:31:11
26
转载 字节跳动提出Mogao模型:开启 AIGC 从“能写会画”到“边写边画”
另外还使用了视频帧和相应字幕的数据,研究人员训练了一个视觉-语言模型,用以为视频中抽帧采样的每一帧生成对应的字幕说明,最终将图像帧和生成的字幕交织在一起,构成训练样本。Mogao通过创新的架构设计和高效的训练策略,成功实现了交错多模态生成,在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如,它可以生成一段描述森林的文字,随后生成一张森林的插图,然后继续生成下一段文字,形成一个连贯的故事。的创新模型,它通过统一框架实现了交错多模态生成,为AI在创意和内容生成领域的应用开辟了新可能性。
2025-05-12 22:05:49
183
转载 T-Rex Label 上线 DINO-X 模型预标注,52CV 粉丝专属福利来袭
为了进一步拓展 AI 标注的能力边界,T-Rex Label 在已有 T-Rex2 智能标注的基础上,正式上线 DINO-X 预标注功能,这意味着用户只需选择图片、定义需要标注的类别,即可一键批量自动标注。(1)老粉福利:在文章发布之前已经关注“我爱计算机视觉”公众号的粉丝,在提供 T-Rex Label 用户 ID 后,将免费获得价值 50 元人民币的 T 豆(共计 1000 颗 ,使用预标注功能每张图片需消耗 3 颗 T 豆,即可标注约 330 张图片)。图3 DINO-X 的目标检测性能指标对比。
2025-05-09 18:10:44
45
转载 KuaiMod | 更高准确率、超低举报率的工业级自动化短视频质量判别框架
在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。这意味着,只有能够真正。1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。
2025-05-09 18:10:44
63
转载 ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,加速视频生成
为此,研究者对这两个模块进行了算子优化,QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现,平均加速比为 7.4 倍,。该方法通过将张量从帧为主的布局转换为 token 为主(token-major)的布局,使得 Temporal Head 所需的 token 在内存中呈现连续排列,从而优化了内存访问模式。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数据,即同一帧的所有 token 连续存储,而不同帧的相同位置的 token 则分散开来。
2025-05-08 13:32:35
56
转载 TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络
受到堆叠多层3 * 3卷积可获得更大感受野的启发,我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。如表10所示,为了验证近似误差的影响,我们在Swin的窗口内对softmax-attention进行泰勒展开,我们发现,对softmax-attention进行更高阶的展开能取得更好的性能,这可能时因为更优的数值近似和attention map具有更高的秩。理论上,通过学习的全秩,可以提高T-MSA++的注意力图的秩,从而在大多数情况下实现更高的秩,并且T-MSA++表现出更丰富的特征表示。
2025-05-07 11:47:32
135
转载 Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处理长音频时,其他模型的性能都有明显下降,而Aero-1-Audio的性能下降最小,展示了其处理长音频的鲁棒性。
2025-05-02 20:20:23
84
转载 Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括。最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。
2025-04-30 15:01:24
80
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
数学建模个人经验谈共九个部分
2010-05-19
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
2010成都信息工程学院研究生数模赛题
2010-05-19
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
Automatic visual/IR image registration
2010-09-25
贝叶斯决策理论机器学习数据挖掘
2010-06-29
流形学习问题manifold study
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”软件测试自动化附件
2010-06-12
Statistical Pattern Recognition:A Review
2010-09-25
handwriten digit recognition by combined classifiers
2010-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人