自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3320)
  • 资源 (78)
  • 收藏
  • 关注

转载 CVPR 25 多模态大语言模型评测教程 | MLLM Evaluation Tutorial

多模态大语言模型(MLLMs)研究成为当前最为热门的课题之一,而如何有效的评估这些多模态基础大模型,已成为“AI的下半场”关注焦点。与前面三轮教程不同的在于,本次教程将会更强调对于MLLM的评测以及基准方面的探讨,以及本方向的最新进展,旨在面向各类相关研究群体,尤其是初学者们提供一个全面的、深入的MLLM Evaluation & Benchmark的介绍,从评测的角度来思考如何促进下一代更强大、更高效、更接近人类智能水平的MLLMs和系统。欢迎感兴趣的同学积极参与本次CVPR25线上或者线下的教程。

2025-06-06 21:34:00 6

转载 从视频生成到世界模型:CVPR 2025 重磅教程来了!

🔗 资源地址:https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model。随着 AIGC 的飞速发展,图像生成已经“卷”入日常,视频生成也不再是最初的“抖动幻影”,而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而迈向更通用、更具具身智能能力的世界模型。🧠 它是否具备成为可执行、可交互、可推理的智能中枢?

2025-06-06 18:10:00 4

转载 新增赛道 | ICCV 2025 视觉质量评估挑战赛(VQualA)

GenAI-Bench赛道 主要聚焦于文本生成视频(Text-to-Video, T2V)算法所生成视频的感知质量评估。其中,Multi-Dimensional Quality Prediction分赛道,模型需分别预测四个质量维度的得分,以更细致地刻画生成视频的各方面表现,捕捉更为复杂的质量差异。赛道二:GenAI-Bench: AIGC Video Quality Assessment Track II -- Multi-Dimensional Quality。

2025-06-06 15:25:00 9

转载 统一架构新思考,北大团队UniWorld-V1统一大模型

结果显示,UniWorld-V1 在各类感知任务上表现不俗,甚至在许多方面超越了 GPT-4o-Image。在 WISE 基准上,UniWorld-V1 综合得分 0.55,尤其在“空间”类题材中获得 0.73 分,仅次于 GPT-4o-Image 的 0.89,位列其他统一模型之首,展现了其在整合世界知识生成图像方面的竞争力。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现,它们对高噪图像也一致地识别为鹿,表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。

2025-06-06 13:14:56 8

转载 CVPR 2025开幕倒计时7天!主会全部论文已开放,附打包下载链接!

作为全球最具影响力的人工智能顶级会议之一,CVPR每年都会汇聚来自学术界和工业界的最新研究成果,代表着计算机视觉领域的发展风向标。这些论文涵盖了从图像识别、目标检测、三维重建,到视觉语言模型、生成模型等前沿方向,内容丰富、干货满满。为了方便大家查阅与学习,CV君已第一时间将全部论文下载完毕,有需要的小伙伴可以在公众号后台下载,关键词。GitHub仓库:https://github.com/52CV/CVPR-2025-Papers。另外,细致分类也会陆续整理在GitHub仓库,欢迎关注!

2025-06-05 21:45:00 15

转载 北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式

与其他专注于推理的开源模型(如Vision-R1和Mulberry)相比,VLM-R³在MathVista上展现出竞争力,并在HallusionBench上超越了Mulberry(62.0% vs. 54.1%),表明模型在避免视觉幻觉方面具有更高的可靠性。最后,以上给出了VLM-R³的真实推理样例,如上图所示,VLM-R³根据推理需要,通过对图像区域的定位,分割等在思维链中引入关键视觉区域,形成了图文交错推理链,有效地提升了模型推理的效果。上图展示了两种方法在回答相同视觉查询时的注意力分布模式。

2025-06-05 19:48:32 8

转载 顶会论文下载合集(CVPR 2025全)

链接: https://pan.baidu.com/s/1QjOpvNQFKPR3RW8HZXPu6A。链接: https://pan.baidu.com/s/1jP_vivu6cAxROI0dQ51opQ。链接: https://pan.baidu.com/s/1YUVUqmIP3Y_DIxg4w1OYwg。链接: https://pan.baidu.com/s/1xLVwSZBMwmSfHyZ7HwrjoA。

2025-06-05 17:14:02 2

转载 逆色调映射, ICCV 2025 | AIM Workshop 举办的 ITM 挑战赛启动!

高动态范围(HDR)图像能够真实还原从暗部到亮部的丰富细节,具有更大的亮度范围和色彩深度,为用户提供更真实的视觉体验。然而受限于传统成像设备和存储的限制,我们日常看到的大多数图像或视频仍是低动态范围(LDR)格式,。的目标是将这些现有的LDR图像恢复为HDR图像,从而释放其潜在的视觉信息。这项任务对于老旧图像内容的再利用、视觉感知增强、以及为HDR显示设备制作内容具有广泛的应用前景。在2025年于夏威夷火奴鲁鲁举行的第六届AIM(图像增强前沿技术)研讨会中,我们隆重推出。LDR与HDR的对比。

2025-06-05 12:41:22 7

转载 CVPR 2025 最佳论文候选揭晓:3D领域强势领跑,独占近半数席位

基于此,提出了一种新的混合模型,采用灵活的Student's t分布,并引入了正密度(点积,splatting)和负密度(挖掘,scooping)两种操作。本文提出了一种导航世界模型(Navigation World Model,简称NWM),这是一种可控的视频生成模型,能够基于过去的视觉观测和导航动作预测未来的视觉观测。与传统在单一任务上进行专门设计的3D视觉模型相比,VGGT是一种更简洁高效的统一方法,无需依赖后续的几何优化处理,在不到一秒内即可完成图像重建,并在性能上超越了依赖后处理的现有方法。

2025-06-04 21:45:49 23

转载 ICCV 2025| BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动

视频中包含 360° 全景视频、双目第一视角、单目视角、多通道空间音频、地理位置、时间戳、以及自然语言场景描述,高度还原人类在复杂现实环境中的知觉与行为基础。两个挑战赛均在平台Kaggle上举办。BinEgo‑360° 挑战不仅关注算法性能,也关注方法的泛化能力和跨模态鲁棒性,鼓励来自学术界与工业界的研究者提出创新性方法,提升 AI 在真实复杂世界下的理解与决策能力。两个任务聚焦于现实生活中高频、连续、多模态交互的视觉理解场景,挑战参赛者在跨模态信息建模、空间感知融合、时间动态建模等方面的综合能力。

2025-06-04 12:52:04 4

转载 【征稿&挑战赛】ACM MM 2025 第一届 “软体机器人视觉语言” 研讨会&挑战赛

系统输入包括自然语言指令与多视角视觉观测,其中指令明确待操作物体及其目标位置,机器人需先基于视觉观测对目标物体进行识别定位,继而执行动作将其运送至指定位置,当物体准确到达目标位置时,即视为操作成功。在该基准中,软体机器人被建模为可在三维空间自由运动的单一Cosserat杆(在任务1中作为柔性机械臂,在任务2中作为柔性移动体)。在该任务中,智能体需处理包含视觉观测与自然语言指令的同步多模态输入,要求将视觉-语言模式与软体动力学建模进行跨模态对齐,将指令转化为由连续介质力学动作。为核心的具身智能领域发展。

2025-06-03 14:25:30 18

转载 揭秘FG-CLIP:细粒度+难负样本,高质量图文对齐数据集FineHARD开源发布

FineHARD数据集不仅包含了常规的图像“短文本”描述(平均长度约20个词),同时为了弥补短文本描述细节缺失的问题,FG-CLIP团队基于多模态LMM模型为数据集中的每张图像生成了包含场景背景、对象属性及空间关系等详细信息的“长文本”描述(平均长度 150个词+),显著提升了全局语义密度。为了定量分析FineHARD数据集的特点,我们与一些业界常用的数据集,如Flickr30k,CC3M和COCO在图像,文本描述,目标bounding box和难负样本等四个维度进行了对比,如下图所示。

2025-06-03 14:25:30 13

转载 ICCV 2025 DRL4Real 解耦表征学习与可控生成研讨会,竞赛与征稿已开启

每个样本由这5个摄像头拍摄的视频中分别提取的100帧组成,同时在8个关键因素上有变化:车辆速度(加速、匀速、减速)、天气条件(晴朗、雾、小雨)、光照和其他环境因素。包含约14,000张图像,涵盖13个不同类别:汽车、猫、牛、狗、鹰、人脸、花卉、水果、马、鸽子、树木、蔬菜,以及延时摄影。DRL4Real研讨会旨在汇集学术界和工业界的研究人员和从业者,讨论和探索解耦表征学习和可控生成领域的最新趋势、挑战和创新。DRL4Real数据集专为解耦表征学习和可控生成而设计,涵盖多种现实场景和多样化的解耦因素。

2025-06-02 16:26:22 6

转载 CVPR 2025 Highlight l 北大团队开源视觉搜索方法 DyFo,无需训练,提升多模态大模型细粒度理解能力

DyFo 模拟人类视觉搜索策略,基于蒙特卡洛树搜索(MCTS)在多模态大模型与视觉专家之间实现高效协作,引导模型在多轮交互中动态调整关注区域,从而更准确地理解图像中的关键细节,显著提升模型在细粒度视觉任务中的表现。DyFo 模拟人类视觉搜索行为,结合蒙特卡洛树搜索(MCTS),在多模态大模型与视觉专家模型间实现高效协作,逐步聚焦关键区域,有效过滤无关信息,提升细粒度理解能力。与视觉专家的对比实验表明,DyFo不仅从专家的视觉能力中获益,还能通过LMMs的参与弥补专家的局限性,实现互补增强。

2025-06-01 09:20:24 48

转载 第六届CSIG图像图形技术挑战赛—红外视频卫星空中动目标检测赛道启动报名

已有的红外视频数据大多是近地面观测视角,捕捉到的目标距离通常较近,低信杂比目标样本较少,制约了对弱小目标探测技术的发展,亟需弥补领域数据的不足。参赛队伍根据红外小目标图像特点自行设计相关的算法,利用主办方所给的红外小目标图像数据集进行模型训练,最终以召回率(Recall)、精确率(Precision)和F1分数作为评价指标,以及轨迹完整度和轨迹准确度作为附加评价指标,衡量参赛队伍算法模型性能。精确率,定义为正确检测的目标数量与算法检测输出的目标总数量(正确检测目标数量与虚警目标数量之和)之比。

2025-06-01 09:20:24 11

转载 ICCV 2025 视觉质量评估挑战赛(VQualA)启动

优胜团队将获得奖项,并受邀向VQualA 2025研讨会提交挑战赛论文,录用论文将收录至ICCV 2025 Workshops会议文集。优胜团队将获得奖项,并受邀向VQualA 2025研讨会提交挑战赛论文,录用论文将收录至ICCV 2025 Workshops会议文集。本次"视觉质量对比"赛道旨在通过利用大型多模态模型(LMMs)的推理能力,在开放式比较场景中突破图像质量评估(IQA)的现有边界。21名参与者的主观评分(经异常值过滤,原始23名) 数据集同时提供平均意见分数(MOS)和个体评分分布。

2025-05-31 12:13:08 90

原创 哈工大、西工大、福大、澳大、港中文联合提出一种树形卷积神经网络的图像超分辨方法

为了防止获得结构信息的不足,余弦用来提取跨域信息,提高图像超分辨性能。为了防止局部关键信息的丢失,余弦技术用来提取方向特征的相似性,促进更多的局部显著性信息,以恢复更高质量图像。该方法利用树形结构引导深度网络,通过提高重要节点作用来寻找到关键网络层,以扩大关键层次信息关联性来提高恢复图像超分辨模型的自适应性。该方法能利用不同树的关联来寻找关键的结构信息的作用,提高图像超分辨性能。余弦技术能用来提取跨域信息,提取局部的显著性信息来促进更鲁棒的结构信息,利于恢复高质量图像。最新 AI 进展报道。

2025-05-31 08:35:00 277

转载 ICCV 2025第一届“多模态推理与慢思考:迈向二类系统及更高层次(MARS2)”

未发表论文(ICCV 2025会议格式)或已发表工作的摘要/海报,内容涵盖但不限于上述主题。大型推理模型(LRMs)的突破性进展正推动多模态智能迈向新高度,但其在。:多模态推理、慢思考范式、指令驱动模型、开放世界泛化。:美国夏威夷檀香山(与ICCV 2025同期)之间仍面临关键挑战。的实践路径(思维链/神经符号推理/多步推断)二类系统(System 2)级推理。(ModelScope社区)(INSAIT索非亚大学)(新加坡南洋理工大学)(中国科学院自动化所)Workshop简介。Workshop简介。

2025-05-30 13:28:34 28

转载 博士招生 | 西湖大学人工智能与生物医学影像实验室招募,多模态大模型方向

实验室负责人杨林博士现任西湖大学终身教授(Tenured Professor),近年来在Nature Machine Intelligence、Nature Medicine、TPAMI等国际期刊及CVPR、MICCAI、ECCV、ICLR等顶级会议论文集上发表科研论文一百余篇,引用次数已达一万余次,曾获MICCAI会议青年科学家奖项(Young Scientist Award)及MICCAI会议青年科学家最佳论文奖(Young Investigator Best Paper Award)。

2025-05-30 13:28:34 26

转载 TPAMI 2025 | 在4D时空中追踪万物!国防科大提出首个长时场景流估计方法 SceneTracker

通过详细的实验,SceneTracker在处理3D空间遮挡和抗深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。从图4可以看出,面对相机和场景中动态物体同时进行的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。框架的第一步是标记感兴趣点,我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。我们的目标是跟踪一个3D视频中的3D点。

2025-05-29 11:31:07 25

转载 智源研究院、中科院自动化所、大连理工联合发布ETT:端到端调优重塑视觉tokenizer优化范式

在现有的多模态预训练框架中,如 Emu3 等工作,虽然通过将图像、文本等多模态数据编码为离散 tokens 实现了统一的序列建模,但在实际操作中,这些方法仅仅利用了冻结的视觉 tokenizer 的离散索引,这不仅极大地浪费了视觉 tokenizer 的丰富特征表示能力,还阻碍了端到端训练的实现,使得视觉 tokenizer 无法根据下游任务的具体需求进行针对性优化。这表明 ETT 能够在保持图像重建质量的同时,增强视觉 tokenizer 的语义表达能力,为进一步的多模态任务提供更优质的视觉表示。

2025-05-28 13:51:12 17

转载 自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!

在高置信度场景,直接输出简短答案,提升推理效率。实验表明,在多模态(如DocVQA、ChartQA)和文本推理(如GSM8K、MathQA)任务中,CAR的token使用量较纯长文本推理减少45%以上,平均准确率提升6%-8%,在Qwen2.5、Llama3.1等模型上均优于基线方法,尤其在数学推理任务中显著减少冗余步骤。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推理:首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

2025-05-27 19:44:27 23

转载 CVPR 2025 | 单目人头重建最新SOTA方法!清华与IDEA发布HRAvatar:高质量可重光照头像化身

为实现真实重光照,该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性,并引入反照率伪先验以更好解耦材质信息,使用简化的BRDF物理模型进行着色。相比3DGS 使用球谐函数建模点的外观,该方法采用一种新的外观建模方法,将外观分解为三个属性:反照率、粗糙度 和菲涅尔基础反射率,并采用BRDF 物理渲染模型进行着色。现有面部跟踪方法获取的表情参数不够准确,为解决表情参数误差影响面部重建质量的问题,该方法提出使用表情编码器,更精确提取表情参数。

2025-05-27 13:54:14 26

转载 多模态文档理解新挑战!字节跳动、华中科技大学联合发布WildDoc基准,揭示真实场景下MLLMs的文档理解鲁棒性短板

WildDoc选取了3个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。收集更多的真实世界文档图像,丰富训练数据集,让模型在更多的“实战”中积累经验,提升性能。

2025-05-26 13:28:47 30

转载 【征稿&挑战赛】ACM MM 2025 第一届“多模态大模型统一理解和生成”研讨会&挑战赛

投稿须采用ACM MM 2025会议模板,论文长度可为4到8页(不含参考文献),无需区分长短论文。不同于传统将理解与生成分而治之的思路,MUCG 专注 一体化 MLLM 的最新进展和未来蓝图,欢迎学界与业界同行共同碰撞思维、共创多模态 AI 新纪元!多模态大语言模型(MLLM)取得了飞速发展,然而理解与生成仍被割裂在不同范式之中。• 💎 Scope-B: 单模态全才(图像、视频、音频、3D 等专项能力)多模态大模型统一理解和生成”研讨会与挑战赛(MLLM-MUCG 2025)

2025-05-25 20:46:32 22

转载 用于图像分割的自监督学习(Self-Supervised Learning)方法综述

对语义分割而言,通过像素级自监督任务(如CPC的密集预测、生成型补全等)可获得更精细的特征,有研究将局部对比学习(如PixelContrast、DenseCL等)应用于密集分割。MoCo/BYOL/SwAV 等:尽管本综述侧重三类任务,上述方法后续涌现了动量对比(MoCo)、自举对比(BYOL)、SwAV(交换视图聚类)等改进,它们均围绕实例对比或聚类学习进一步提升表示能力,但核心思想仍是最大化相似视图间一致性。实例分割任务则可能结合区域级的SSL任务,例如利用对比学习或伪标签生成来学习实例级特征。

2025-05-22 19:23:29 44

转载 CVPR 2025 | 中科大提出基于上下文调制的神经视频压缩

具体地,计算导向上下文和传播上下文在全局与局部特征空间上的余弦相似度,并构造成损失函数:全局特征的余弦相似度希望越大越好(鼓励全局信息对齐),而局部特征的余弦相似度则希望降低(鼓励细节特征差异),以保证两类上下文的互补性。例如,在表1所示测试结果中,DCVC-DC和DCVC-FM的平均BD-Rate分别为-14.1%和-9.9%,而所提出的DCMVC达到了-19.4%;在周期为-1的设置下(表2),DCVC-DC和DCVC-FM平均分别为-9.3%和-12.6%,而DCMVC则提高到-22.7%。

2025-05-21 22:28:23 56

转载 ICML2025 | 细粒度图文对齐突破,360人工智能研究院发布全新一代图文跨模态模型FG-CLIP,开源并可商用

当前普遍使用的图文跨模态模型如OpenAI CLIP,EVA-CLIP等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。例如,区分“一只黑色的狗”与“一只深棕色的狗”,或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异,往往会让模型陷入困惑。视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石,如多模态大语言模型,图像生成模型,视频生成模型等,都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。

2025-05-20 18:05:56 80

转载 Medical Image Analysis:医学图像分割最新进展综述

医学图像分割(Medical Imaging Segmentation,MIS)在计算机辅助诊断、治疗规划和疾病监测等领域具有关键作用,但由于数据获取受限、标注复杂、目标结构多样以及模态差异等因素,要得到准确的分割结果依然困难。相关仓库:https://github.com/faresbougourzi/Awesome-DL-for-Medical-Imaging-Segmentation。像素级标注耗时费力,需多位专家反复校验,标注要求极高。:模型复杂、对资源依赖大,亟需轻量、高效、可解释的部署方案。

2025-05-19 21:05:22 126

转载 博士后 | 西湖大学机器智能实验室招聘,具身大模型、强化学习方向

西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB),是国内知名的机器人具身智能实验室,专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力。研究Data Efficiency相关的深度强化学习基础算法,包括但不限于小样本强化学习、元强化学习、迁移强化学习、持续强化学习、鲁棒强化学习等,发表人工智能顶会论文。对来杭工作符合条件的全球本科及以上学历应届毕业生(含毕业5年内的回国留学人员、外国人才),杭州市发放生活补贴,其中博士10万元。

2025-05-17 20:44:00 51

转载 92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍

本文介绍了 VITA-Audio,这是一个轻量级框架,其核心在于引入独立高效的多重跨模态令牌预测(MCTP)模块,能够直接从文本 Token 与 LLM Hidden States 中生成音频响应,无需依赖 LLM 的全局语义建模,仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块,保以维持文本与音频 Token 的合理配比(1:2),随后逐步激活部模块,通过动态调节文本/音频 Token 输出比例,实现生成速度与质量的最优平衡。

2025-05-15 15:32:36 1038

转载 哈工大,西工大,武大,广西师大联合提出卷积神经网络在图像超分辨上的应用(174篇论文应用)

随后,根据线性和非线性的缩放图像方式给出了基于插值的卷积神经网络图像超分辨方法(双三次插值算法、最近邻插值法、双线性插值算法)、基于模块化的卷积神经网络超分辨方法(转置卷积、亚像素层和元上采样模块),分析这些方法在非盲图像超分辨和盲图像超分辨问题上的动机、原理、区别和性能最后,本文给出卷积神经网络在图像超分辨的未来研究、挑战和总结全文。因此,轻量级网络的图像超分辨研究非常有必要的。由于复杂的拍摄场景、运动的拍摄设备以及运动的目标,导致单源的图像引导深度网络获得图像超分辨模型在真实场景中的应用受限。

2025-05-14 21:06:23 59

转载 CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。

2025-05-13 12:31:11 26

转载 字节跳动提出Mogao模型:开启 AIGC 从“能写会画”到“边写边画”

另外还使用了视频帧和相应字幕的数据,研究人员训练了一个视觉-语言模型,用以为视频中抽帧采样的每一帧生成对应的字幕说明,最终将图像帧和生成的字幕交织在一起,构成训练样本。Mogao通过创新的架构设计和高效的训练策略,成功实现了交错多模态生成,在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如,它可以生成一段描述森林的文字,随后生成一张森林的插图,然后继续生成下一段文字,形成一个连贯的故事。的创新模型,它通过统一框架实现了交错多模态生成,为AI在创意和内容生成领域的应用开辟了新可能性。

2025-05-12 22:05:49 183

转载 T-Rex Label 上线 DINO-X 模型预标注,52CV 粉丝专属福利来袭

为了进一步拓展 AI 标注的能力边界,T-Rex Label 在已有 T-Rex2 智能标注的基础上,正式上线 DINO-X 预标注功能,这意味着用户只需选择图片、定义需要标注的类别,即可一键批量自动标注。(1)老粉福利:在文章发布之前已经关注“我爱计算机视觉”公众号的粉丝,在提供 T-Rex Label 用户 ID 后,将免费获得价值 50 元人民币的 T 豆(共计 1000 颗 ,使用预标注功能每张图片需消耗 3 颗 T 豆,即可标注约 330 张图片)。图3 DINO-X 的目标检测性能指标对比。

2025-05-09 18:10:44 45

转载 KuaiMod | 更高准确率、超低举报率的工业级自动化短视频质量判别框架

在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。这意味着,只有能够真正。1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。

2025-05-09 18:10:44 63

转载 ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,加速视频生成

为此,研究者对这两个模块进行了算子优化,QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现,平均加速比为 7.4 倍,。该方法通过将张量从帧为主的布局转换为 token 为主(token-major)的布局,使得 Temporal Head 所需的 token 在内存中呈现连续排列,从而优化了内存访问模式。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数据,即同一帧的所有 token 连续存储,而不同帧的相同位置的 token 则分散开来。

2025-05-08 13:32:35 56

转载 TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络

受到堆叠多层3 * 3卷积可获得更大感受野的启发,我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。如表10所示,为了验证近似误差的影响,我们在Swin的窗口内对softmax-attention进行泰勒展开,我们发现,对softmax-attention进行更高阶的展开能取得更好的性能,这可能时因为更优的数值近似和attention map具有更高的秩。理论上,通过学习的全秩,可以提高T-MSA++的注意力图的秩,从而在大多数情况下实现更高的秩,并且T-MSA++表现出更丰富的特征表示。

2025-05-07 11:47:32 135

转载 Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!

Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处理长音频时,其他模型的性能都有明显下降,而Aero-1-Audio的性能下降最小,展示了其处理长音频的鲁棒性。

2025-05-02 20:20:23 84

转载 Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括。最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

2025-04-30 15:01:24 80

weka使用教程中文版

目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析

2010-05-19

支持基本RichText编辑功能的消息应用程序附件

注意:这个资源是中兴捧月的一题,我保存下来自己看的,网上可以找到,大家就不要下载了吧 请基于高通BREW SDK及模拟器开发包,为类似手机设备这样的小型终端,设计一个支持基本的RichText编辑功能的类似短消息的brew应用程序。 初赛要求: 1、 该应用第一阶段至少支持消息内容的编辑功能,消息的保存和阅读、删除功能。在编辑界面的任意位置可以实现字符,动画,图片,铃音的插入和删除功能。如下图: 2、 界面一级菜单至少包含:新建消息,草稿箱,帮助 3、 实现一个编辑功能BREW接口控件,至少支持以下要求: (1)编辑内容时能输入文本,并能设置文本的字体大小(大字体、小字体两种) (2)编辑内容时能能插入图片,图片格式为BMP文件,32x32像素,256色 (3)编辑内容时能插入动画,动画格式为4幅(2)要求BMP的图片,当光标移动到动画位置时,能播放动画,当光标移开时,停止播放 (4)编辑内容时能插入铃音,铃音格式为标准MIDI文件,大小32k以内,当光标移动到铃音位置时能够播放铃音,当光标移开时,停止播放 4、 能将编辑的内容保存到一个草稿箱消息文件,该文件格式可以自己定义,但要保证文本、图片、声音的数据保存完整 5、 支持草稿箱阅读保存的内容。所有输入内容能正常显示、播放 6、 支持草稿箱删除消息功能 实现技术提示信息: BREW SDK 模拟器可以在windows操作系统平台直接运行,可以结合visual studio 6.0 IDE 环境方便代码工程管理和代码调试。BREW应用开发语言为C语言。 BREW SDK已经提供了接口,支持了BMP图片显示及MIDI文件的播放。 参考资料信息: 可从https://brewx.qualcomm.com/brew/sdk/download.jsp,高通公司的官方网站下载安装。进入网站下载页面后,用自己的电子邮箱地址注册帐号,即可下载BREW SDK。 BREW SDK中已携带参考文档: 1) 《BREWSDKUserDocs.chm》 2) 《BREWAPIReference.chm》 3) 《BREWSDKUserDocs.chm》 3GPP TS 23.040 V530文档(请见附件): www.3GPP.org,也可在网上找到该文档的其他版本 审核标准: 1、 设计文档是否有效解决了题目问题,是否清晰反映了设计者的设计思路,文档结构组织是否合理 2、 参赛程序对题目所要求功能的实现程度 3、 参赛作品是否具有很好的可读性和运行效率,资源占用情况是否合适

2010-06-09

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

网上有很多人脸数据库,但大部分是未经裁剪处理的,不能直接用于人脸识别试验。而整个网络也几乎找不到人脸裁剪/人脸裁切的工具,广大初入人脸识别研究领域的人不知如何入手。 该程序是为人脸识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪/裁切的,而去除背景是人脸识别预处理的重要一步。 采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些特殊格式的.tif图像可能会出问题。

2010-05-12

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理,共有120个人,每人14幅图像,包含图像和.mat数据,可直接用于人脸识别实验。

2010-05-06

经过裁剪预处理的面部表情识别研究用JAFFE数据库

网上JAFFE数据库几乎都是原始数据库,未经人脸裁剪/人脸剪切的,这个数据库是经过预处理的,已经将人脸利于面部表情识别的部分剪切出来,并存成64*82大小图像(详细裁剪算法请参考张一鸣,《面部表情识别》,该裁剪程序可在我的另一个资源里找到),按照类别分成7组,并详细标明各组所属表情分类,可直接用于面部表情识别实验。

2010-05-12

数学建模个人经验谈共九个部分

包括:组队和分工,选题,文献资料查找,论文写作,培训,实践,如何写好数学建模论文和一些个人心得。 不是我写的。 大家备战数模的可以参考一下。 我在本科阶段没有参加过数学建模,因为有一种畏惧感,觉得那是数学学得很好的人才能做得来的。研究生阶段第一次抱着试一试的心态参加了第六届研究生数模,个人感觉没有想象中的那么难,而且所解决的问题很有挑战性也比较有价值,最终拿了个三等奖。 研究生建模竞赛的好处是:自己组队,没有指导老师,不会有为了学校获奖老师给学生出方案的情况(可能也会有,不过是不被允许的),更客观。 总的来讲,数学建模是体现一个人综合解决问题能力的一个平台,研究生数学建模竞赛更是有很多科研的成分,很有挑战性。

2010-05-19

南京理工大学计算机学院复试上机编程题目

南京理工大学计算机学院复试上机编程题目,需要的可以看看。不过这是前几年的。

2010-05-28

人脸识别研究用ORL数据库

人脸识别 ORL数据库 图像和.mat数据 不需裁剪和预处理可直接用于实验。

2010-05-06

实对称矩阵相似对角化Matlab程序

实对称矩阵相似对角化Matlab程序,用到的朋友可以下载看看。

2010-05-07

kMeansCluster k均值聚类算法Matlab代码实现

kMeansCluster k均值聚类算法Matlab代码实现,聚类里的经典算法。可以参考应用。

2010-05-09

南京理工大学数据库系统

南京理工大学数据库系统课件和部分练习题,考研的同学可以参考一下。

2010-05-28

经过裁剪预处理的人脸识别研究用FERET数据库

经过裁剪预处理的人脸识别研究用FERET数据库(美国军方数据库),共有200个人,每个人7幅图像,包括图像和.mat数据,可以直接用于人脸识别实验。

2010-05-06

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪系统,因为大部分人脸表情数据库都是未经裁剪/裁切的,而去除背景是人脸表情识别预处理的重要一步。网上有很多人脸数据库,但大部分是未经裁剪/人脸裁切处理的,不能直接用于人脸表情识别试验。 该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪的,而去除背景是人脸表情识别预处理的重要一步。 图像归一化为64*82大小,归一化方案请参见张一鸣,《人脸表情识别》。采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些.tif图像可能会出问题。

2010-05-12

南京理工大学操作系统课件

南京理工大学 操作系统 课件,考研的同学可以下载参考。

2010-05-28

人脸面部表情识别日本jaffe数据库

人脸表情识别日本jaffe数据库,是表情识别领域应用最为广发的一个数据库之一,总共包含7种表情。

2010-05-12

南京理工大学数据结构

南京理工大学数据结构,考研的同学可以参考一下。

2010-05-28

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

是篇硕士论文,详细介绍了人脸表情识别的预处理,特征提取,分类识别和系统设计各个阶段,是表情识别入门读物。

2010-05-12

南京理工大学计算机网络课件

南京理工大学计算机网络课件, computer networking,考研的同学可以参考。

2010-05-28

南京理工软件工程讲稿

南京理工软件工程讲稿,考研的可以参考一下。

2010-05-28

2010成都信息工程学院研究生数模赛题

投票倾向问题 2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题

2010-05-19

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)

在通信领域,用户在网管界面操作,通过TCP/IP协议给电信设备发送报文,从而配置、维护电信设备。电信设备一般都不具备可视化终端,当电信设备从网管接收到了命令报文后,用户不方便了解电信设备接收到了哪些命令报文、以及处理报文过程是否正常。为了监视电信设备的运行情况,可以在电信设备上运行一个socket服务器,在PC机上运行一个socket客户端,称为命令报文监视器,所有通过网管发给电信设备的命令报文都会通过socket服务器发送给报文监视器,请实现一个这样的命令报文监视器。 初赛要求: 1、监视器程序是一个可视化的GUI程序,刚运行时提供输入框让用户输入需要监视的电信设备的IP地址和端口号,然后与电信设备服务器建立socket连接。比如用户输入的IP地址为:192.192.192.1,端口号为8000,用户点击“连接”按钮即可与电信设备服务器建立连接。 2、监视器程序仅仅从socket连接中读取电信设备服务器发来的数据,这些数据是一串连续的ASCII码流。监视程序每次从socket中接收到数据后在数据前面加上时间信息,然后在GUI界面中显示。比如从服务器接收到的报文为“Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12.”,那么在GUI界面中的显示则如下: [10/05/19 03:30:17] Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12. 其中[]里面的是显示接收到的PC机本地时间,其余ASCII字符为报文的内容。 监视器程序只管从socket中接收报文,无须通过socket发送报文。 3、当报文内容很多时为了方便用户选择查看有意义的报文,可以对报文进行过滤。支持用户输入需要过滤的字符的关键字。比如输入要过滤的关键字为“nMcuAdrs=0x10301”,那么对于nMcuAdrs=0x10301的报文则不显示,仅显示满足关键字过滤规则的报文。当需要有多个要过滤的关键字时,需要支持一下的规则: (1)与 key1 and key2, 表示既要满足关键字key1也要满足关键字key2 (2)或 key1 or key2, 表示只要满足key1或者kye2任一即可 (3)支持与和或的组合,与的优先级高于或。比如 key1 and key2 or key3,表示只要满足key1、key2,或者key3即可 (4)括号的优先级高于and。比如 key1 and (key2 or key3),表示满足key1并且满足key2、key3中任一即可。 每一个关键字都用双引号括起来,比如输入过滤的字符为“nMcuAdrs=0x10301” and “CmdCode = 0x11ab” ,表示既要满足nMcuAdrs=0x10301也要满足CmdCode = 0x11ab 4、支持监视器收到的所有报文保存到文件中,需要支持用户设置文件所能保存的最大报文数目。比如用户设置最大可以保存100条报文,当超过100报文时新接收到的报文可以覆盖时间最长的报文,例如附件中的文件。 实现技术提示信息: 1、 编程语言可以任选 2、借用BT原理,当1个监视器程序成功连接上电信设备后即成为种子,让其他的监视器程序连接 审核或评分标准: 1、设计合理、简洁,简单、易用 2、设计文档、说明文档清晰 3、软件功能正常、运行高效,无严重BUG

2010-06-12

Automatic visual/IR image registration

A feature-based approach to visual/IR sensor image registra- tion is presented.This new method overcomes the difficulties caused by the discrepancy in data’s gray-scale characteristics and the problem of feature inconsistency.It employs a wavelet-based feature extractor to locate point features from contours based on local statistics of the image intensity.Matching is carried out at multiresolution levels based on point features.A consistency-checking step is involved to eliminate mis- matches.The algorithm is accurate,robust,and fast.It is capable of handling images with considerable translation,scaling,and rotation.De- tails on the registration algorithm including feature extraction,matching, consistency checking,and the image transformation model are dis- cussed.Experimental results using real visual/IR sensor data are presented.

2010-09-25

贝叶斯决策理论机器学习数据挖掘

贝叶斯分类器 正态分布决策理论 关于分类的错误率分析 最小风险Bayes分类器 Bayes分类器算法和例题 聂曼-皮尔逊判别准则 最大最小判别准则 决策树 序贯分类

2010-06-29

结合Zernike矩的多尺度模板形状匹配

结合Zernike矩的多尺度模板形状匹配,目标识别 形状匹配 小波变换 Zernike矩 。

2010-09-25

采用LBP金字塔的人脸描述与识别

采用LBP金字塔的人脸描述与识别脸识别 多尺度分析 LBP金字塔 直方图

2010-09-25

rgb2hsi转换函数Matlab

图像从RGB空间转换到HSI空间,Matlab函数

2010-07-31

流形学习问题manifold study

线性维数约简方法 流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介:LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

2010-06-29

OpenCV1.0安装文件

在VC6下配置OpenCV1.0文档。 http://www.opencv.org.cn/index.php/VC6%E4%B8%8B%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AEOpenCV1.0

2010-06-25

2010年第七届全国研究生数学建模竞赛试题与附件

2010年第七届全国研究生数学建模竞赛试题与附件包括ABCD四题

2010-09-17

人脸识别现有应用介绍

人脸识别现有应用介绍 人脸识别 汉王 飞瑞斯 中控

2011-01-17

“中兴捧月”软件测试自动化附件

软件测试自动化是提升软件测试效率的一个好途径,自动化的实现首先要能够对被测对象进行自动化控制,形成自动化控制工具,完成一些自动化控制功能;一个完整的测试系统可能包括多种自动化控制对象,需要有针对性的构建不同自动化控制工具,同时也需要提供一个集成的平台,使测试人员可以在一个统一的视图上进行自动化测试用例的开发,来实现对不同自动化控制工具的操纵,综合完成一个完整测试用例的执行。这个平台与各自动化控制工具之间形成主从的关系,用例流程中对被测对象的控制功能可以关键字的形式在平台上调用,平台通过指令下发给自动化控制工具进行实际执行并返回结果。 在一款C/S形式的任务调度软件的测试过程中引入自动化测试,其中客户端界面上有五个可以输入参数的编辑框(假设均为整数型数据),在设置好一组参数组合后,点击开始处理按钮,客户端会将这些输入参数进行打包并向服务器端提交,服务器端接受申请后进行运算并形成要调度的任务,如果不能完成操作则返回失败信息给客户端,如果能完成操作则在服务器端可以查看到进入任务调度列表的对应任务项(以特定任务ID表示)并返回成功信息给客户端,客户端在接收到返回信息后会根据操作的成功与否显示相应的成功图标或失败图标(成功图标与失败图标是不同控件)。 现在要实现对软件输入参数的遍历性测试,一个典型的参数遍历测试步骤如下: (1)对客户端界面的五个参数按照某种组合进行设置(组合数据是在用例设计时已经设计好的一组数据,并对应得出一个应该在服务器端进入任务调度列表的任务ID) (2)点击客户端开始处理按钮 (3)判断处理结果,如果显示图标为失败则本次用例失败 (4)如果处理结果为成功(显示图标为成功图标),则对服务器端的任务调度列表进行特定任务ID获取并判断,如符合前面参数组合所预期的任务ID则用例成功,否则失败 (5)返回到步骤1,按照另一参数组合进行设置,重复1-4步骤,直到组合数据都遍历完(假设已经设计好10组数据组合) (6)最终给出完整测试结果 假设已经实现对客户端界面参数读写与控件控制的自动化工具,以及服务器端任务列表内容判断的自动化工具,现在需要设计一个有集成功能的自动化测试平台系统,这个平台能够对控制工具进行指令下发及结果返回,操纵工具实现对测试对象的控制,如前述1-4步骤要完成的功能。 所需要的自动化测试平台有如下三个重点要求: (1)能够让用户定制出如上述的测试用例流程,测试用例的实现可以脚本或图形界面形式进行支持,但以最大程度降低用户编写用例的难度为目标 (2)以友好界面提供给测试人员进行上述测试用例的实现,以及用例运行和运行结果的显示 (3)遍历测试下多种数据组合以合适的方式进行支持,体现数据驱动特点 附:软件测试自动化测试数据(见附件) 初赛要求: 1、设计自动化测试平台系统框架结构及系统功能,不局限于上述三项要求 2、重点设计上述平台系统三大特性需求所要求的软件功能 3、实现上述设计的DEMO程序 实现技术提示信息: 编程语言可以任选 软件测试自动化相关背景资料可参考: 《软件测试自动化技术与实例详解》Addison-Wesley 电子工业出版社 《软件测试自动化》Daniel J.Mosley 机械工业出版社 审核或评分标准 1、设计合理,有一定应用优势 2、设计文档、说明文档质量 3、软件基本功能实现,无严重BUG

2010-06-12

Zernike矩的快速算法

Zernike矩的快速算法,论文,可以参考下。

2010-09-25

文件批量命名工具FileBatchRemaerExe

文件批量命名工具 FileBatchRemaerExe

2010-07-31

Statistical Pattern Recognition:A Review

The primary goal of pattern recognition is supervised or unsupervised classification.Among the various frameworks in which pattern recognition has been traditionally formulated,the statistical approach has been most intensively studied and used in practice.More recently,neural network techniques and methods imported from statistical learning theory have been receiving increasing attention.The design of a recognition system requires careful attention to the following issues:definition of pattern classes, sensing environment,pattern representation,feature extraction and selection,cluster analysis,classifier design and learning,selection of training and test samples,and performance evaluation.In spite of almost 50 years of research and development in this field,the general problem of recognizing complex patterns with arbitrary orientation,location,and scale remains unsolved.New and emerging applications,such as data mining,web searching,retrieval of multimedia data,face recognition,and cursive handwriting recognition, require robust and efficient pattern recognition techniques.The objective of this review paper is to summarize and compare some of the well-known methods used in various stages of a pattern recognition system and identify research topics and applications which are at the forefront of this exciting and challenging field.

2010-09-25

LBP人脸识别Yale数据库

LBP人脸识别Yale数据库,LBP 人脸识别 Yale数据库 matlab数据和程序 不是我写的。

2010-09-25

LBP相关文献及Matlab程序

LBP相关文献及Matlab程序LBP文献 Matlab程序

2010-09-25

OpenCV1.2安装文件

OpenCV1.2安装文件,计算机视觉开源函数库。

2010-07-31

联机手写数字识别程序

联机手写数字识别程序,不是我写的,分享一下。

2010-09-25

表达式求值C++代码

表达式求值C++代码,我测试过,挺好用。遇到类似问题,可以参考一下。

2010-06-13

handwriten digit recognition by combined classifiers

UCI多特征数据库的原始文献,handwriten digit recognition by combined classifiers

2010-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除