自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4415)
  • 资源 (2)
  • 收藏
  • 关注

原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力

在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。

2024-05-18 19:15:00 1031

原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。

2024-05-13 12:24:06 747

原创 TPAMI 2024 | 基于专家知识融入深度网络架构的多层次可解释睡眠阶段评分系统

近年来,深度学习在包括计算机视觉、图像和信号处理等广泛领域显示出潜力和效率。然而,由于算法决策和结果缺乏可解释性,用户应用仍面临转化挑战。对于高风险应用(如医疗相关决策),这种黑箱问题尤为严重。本研究的目标是设计一个可解释的深度学习系统,用于时间序列分类的脑电图(EEG)睡眠阶段评分,作为设计透明系统的一步。我们开发了一个可解释的深度神经网络,其中包括一个基于内核的层,由人类专家在多导睡眠记录视觉分析中使用的睡眠评分原则指导。定义并使用基于内核的卷积层作为系统的第一层,并提供给用户解释。

2024-08-24 09:30:00 8

原创 TPAMI 2024 | 使用约束学习的学习:新视角、解决策略及多种应用

题目:Learning With Constraint Learning: New Perspective, Solution Strategy and Various Applications使用约束学习的学习:新视角、解决策略及多种应用作者:Risheng Liu; Jiaxin Gao; Xuan Liu; Xin Fan摘要学习问题的复杂性,例如生成对抗网络(GAN)及其变体、多任务和元学习、超参数学习以及各种现实世界的视觉应用,要求对其基础耦合机制有更深入的理解。现有的方法通常孤立地解决

2024-08-24 09:30:00 5

原创 TPAMI 2024 | CPR++:通过单一粗略点监督进行物体定位

题目:CPR++: Object Localization via Single Coarse Point SupervisionCPR++:通过单一粗略点监督进行物体定位作者:Xuehui Yu; Pengfei Chen; Kuiran Wang; Xumeng Han; Guorong Li; Zhenjun Han; Qixiang Ye; Jianbin Jiao摘要基于点的物体定位(POL)旨在通过低成本的数据标注实现高性能的物体感知,这一领域引起了越来越多的关注。然而,点标注模式不可

2024-08-24 09:30:00 7

转载 8种概率统计分布(附Python代码)

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达大家好,我是Peter~在本文中,将给大家介绍常见的8种概率分布并通过Python 代码进行可视化以直观地显示它们。概率和统计知识是数据科学和机器学习的核心;我们需要统计和概率知识来有效地收集、审查、分析数据。现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。这意味着在某些情况下,我们已经能够开发出...

2024-08-23 10:33:56 8

转载 (图解)JPEG 图像压缩原理技术

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达编者荐语JPEG(Joint Photographic Experts Group)是JPEG标准的产物,该标准由国际标准化组织(ISO)制订,是面向连续色调静止图像的一种压缩标准。JPEG格式是最常用的图像文件格式,后缀名为.jpg或.jpeg。作者丨Jack Sigmoid @ 知乎链接丨https://zhuanlan....

2024-08-23 10:33:56 8

原创 TPAMI 2024 | Transformer中的动态一元卷积

目前尚不确定变换器架构的优势是否能补充现有的卷积神经网络。最近的一些尝试通过一系列结构串联将卷积与变换器设计相结合,本文的主要贡献是探索了一种并行设计方法。与之前的基于变换的方法需要将图像分割成块状标记不同,我们观察到在卷积特征上进行的多头自注意力主要对全局相关性敏感,当这些相关性没有表现出来时性能会下降。我们提出了两个并行模块和多头自注意力来增强变换器。对于局部信息,动态局部增强模块利用卷积动态显式地增强积极的局部块并抑制对信息较少的块的响应。

2024-08-23 09:30:00 121

原创 TPAMI 2024 | 基于面部视频的远程生理测量:自监督学习方法

面部视频基础的远程生理测量旨在通过分析人类面部视频来估计远程光电容积脉搏图(rPPG)信号,并从rPPG信号中测量多种生命体征(例如,心率、呼吸频率)。最近的方法通过训练深度神经网络来实现这一点,这通常需要大量的面部视频和同步记录的光电容积脉搏图(PPG)信号来进行监督学习。然而,在实践中收集这些带注释的语料库并不容易。在本文中,我们引入了一种新颖的频率启发式自监督框架,无需真实的PPG信号即可从面部视频中学习估计rPPG信号。

2024-08-23 09:30:00 7

转载 女博士寝室夜话集锦

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达编者荐语《中国教育统计年鉴》数据显示:在读女博士生人数以十年为阶呈倍数式增长。转载自丨考博圈1989年,我国在学女博士生1113人,2018年这个数字达到157255人。随着博士扩招,北部某知名大学女博寝室供需严重失衡,在此形势下,学校再三强调,寝室绝对不可空置,要确保每张床位发挥其应有价值。作者所在的520寝室已全员到齐。不...

2024-08-22 10:25:41 9

转载 看懂这25个核心概念,就没有啃不动的机器学习论文

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达转载自AI科技评论作者 | 李梅编辑 | 陈彩娴机器学习领域的研究进展迅速,研究者既要及时跟进最新研究,也要不时地回顾经典。寒假开始,各位机器学习er在度假之余,想必也不会忘了自己卷王的身份。最近,Github上出现了一个名为“ML Papers Explained”的优质项目,精选了机器学习领域的一些核心概念,对相关工作的...

2024-08-22 10:25:41 7

转载 研究生,涨薪?博士1年7万,硕士3.3万。大家补贴多少?

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达近日,一则关于中国科学院大学调整研究生奖助学金的消息弥漫全网!如图:(来源:网络)各培养单位:为更好地保障我校在读研究生安心治学,经研究,决定调整我校研究生奖助学金最低发放标准,自2024年9月1日起实施。具体如下:一、最低发放标准按照研究生年度平均收入计,博士研究生奖助学金(包括国家助学金、学业奖学金、三助津贴和其它补贴等,下...

2024-08-22 10:25:41 10

原创 TPAMI 2024 | 通过多尺度时空骨架匹配的一次性动作识别

单样本骨架动作识别旨在通过单一训练样本学习骨架动作识别模型,由于收集和注释大规模骨架动作数据的挑战,这一领域受到了越来越多的关注。然而,大多数现有研究通过直接比较它们的向量特征来匹配骨架序列,这忽略了骨架数据的空间结构和时间顺序。本文提出了一种新颖的单样本骨架动作识别技术,通过多尺度空间-时间特征匹配来处理骨架动作识别。我们在多个空间和时间尺度上表示骨架数据,并从两个角度实现最佳特征匹配。第一是多尺度匹配,它同时捕获多个空间和时间尺度上骨架数据的尺度语义相关性。

2024-08-22 09:30:00 165

原创 TPAMI 2024 | 面向机器的视频编码:为智能协作分析压缩视觉表示

作为一项新兴的研究实践,利用最近的高级AI技术,例如基于深度模型的预测和生成,视频编码为机器(Video Coding for Machines, VCM)致力于在一定程度上弥合视频/图像压缩和特征压缩各自独立研究的鸿沟,并尝试从统一的角度优化紧凑性和效率,这一角度兼顾了高精度机器视觉和全保真人类视觉的需求。考虑到深度特征表示和视觉数据压缩的快速发展,本文总结了基于现有学术和工业努力的VCM方法论和哲学。

2024-08-22 09:30:00 134

转载 机器学习理论(一)k近邻算法

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达前言KNN(k-Nearest Neighbors)思想简单,应用的数学知识几乎为0,所以作为机器学习的入门非常实用、可以解释机器学习算法使用过程中的很多细节问题。能够更加完整地刻画机器学习应用的流程。首先大致介绍一下KNN的思想,假设我们现在有两类数据集,一类是红色的点表示,另一类用蓝色的点表示,这两类点就作为我们的训练数据集...

2024-08-21 10:11:02 7

转载 一文读懂 12种卷积方法

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达来源:机器之心本文约7800字,建议阅读15分钟本文归纳总结深度学习中常用的几种卷积,并会试图用一种每个人都能理解的方式解释它们。我们都知道卷积的重要性,但你知道深度学习领域的卷积究竟是什么,又有多少种类吗?研究学者 Kunlun Bai 近日发布一篇介绍深度学习的卷积文章,用浅显易懂的方式介绍了深度学习领域的各种卷积及其优势...

2024-08-21 10:11:02 29

原创 TPAMI 2024 | 卷积神经网络中分段线性激活函数的线性区域数量研究(二)

定理 5设 N1 是定理 4 中的 L 层 PLCNN,其中 f(1)l,f(2)l=O(1)f(1)_l, f(2)_l = O(1)f(1)l​,f(2)l​=O(1) 对于 1≤l≤L1 \leq l \leq L1≤l≤L,且 d0=O(1)d_0 = O(1)d0​=O(1)。当 d1=d2=...=dL=dd_1 = d_2 = ... = d_L = dd1​=d2​=...=dL​=d 趋向于无穷大时,我们得到 N1 有 Θ(Ld2)\Theta(Ld^2)Θ(Ld2) 个参数,且 RN1

2024-08-21 09:30:00 16

原创 TPAMI 2024 | 卷积神经网络中分段线性激活函数的线性区域数量研究(三)

定理 2 证明: 注意,对于单层片段线性卷积神经网络(PLCNN)NNN,每个隐藏神经元的前激活是一个关于输入值的仿射线性函数。根据定义 1,NNN 在参数 θ\thetaθ 下的线性区域数量等于超平面排列 ANθ:={Hi,j,k,p(X0;θ):1≤i≤n1(1),1≤j≤n2(1),1≤k≤d1,1≤p≤q}A_N^\theta := \{H_{i,j,k,p}(X_0; \theta) : 1 \leq i \leq n_1^{(1)}, 1 \leq j \leq n_2^{(1)}, 1 \le

2024-08-21 09:30:00 14

转载 史上讲解最好的 Docker 教程,从入门到精通(建议收藏的教程)

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达作者 | 惨绿少年来源 | https://www.cnblogs.com/clsn/p/8410309.html编辑 | 极市平台本文只用作学术讨论,侵权删。转载需联系原作者。docker不是一个值得投入的领域,它解决的问题是Unix系统最初设计的一个疏忽。从一个不会用docker的小白,自己一步一步的摸索,中间也踩过许多坑。...

2024-08-20 10:05:58 36

转载 矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达来源:新智元【导读】Pytorch团队推出的最新3D可视化最新工具mm,能够将矩阵乘法模拟世界还原。矩阵中的模拟世界,真的来了。矩阵乘法(matmul),是机器学习中非常重要的运算,特别是在神经网络中扮演着关键角色。Pytorch团队最新的一篇文章中,介绍了「mm」,一个用于matmuls和matmuls组合的可视化工具。因为使...

2024-08-20 10:05:58 8

转载 卷积神经网络的发展及各模型的优缺点

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达前言在CV领域,我们需要熟练掌握最基本的知识就是各种卷积神经网络CNN的模型架构,不管我们在图像分类或者分割,目标检测,NLP等,我们都会用到基本的CNN网络架构。CNN从最初的2012年AlexNet横空出世到2014年VGG席卷世界以及2015年ResNet奠定了该领域的霸主地位,网络模型变得越变越深,而且也得到证明,越深的...

2024-08-20 10:05:58 18

原创 TPAMI 2024 | 短视频中文标题生成:数据集、评价指标与算法

先前的视频字幕生成工作旨在客观描述视频内容,但字幕缺乏人类兴趣和吸引力,限制了其实际应用场景。视频标题生成(视频标题制作)的意图是产生有吸引力的标题,但缺乏基准。本工作提供了CREATE,这是第一个大规模的中文短视频检索和标题生成数据集,以协助中文视频标题生成、视频字幕和视频检索的研究和应用。CREATE包括一个高质量的标记数据集210 K和两个网络规模的3 M和10 M预训练数据集,涵盖51个类别,50K+标签,537K+手动注释的标题和字幕,以及10M+带有原始视频信息的短视频。

2024-08-20 09:30:00 87

原创 TPAMI 2024 | 卷积神经网络中分段线性激活函数的线性区域数量研究(一)

On the Number of Linear Regions of Convolutional Neural Networks With Piecewise Linear Activations题目:卷积神经网络中分段线性激活函数的线性区域数量研究作者:Huan Xiong , Lei Huang, Wenston J.T. Zang , Xiantong Zhen , Guo-Sen Xie , Bin Gu , and Le Song摘要深度学习中的一个基本问题是理解深度神经网络(NNs)在

2024-08-20 09:30:00 126

转载 保姆级随机森林算法Python教学

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达机器学习算法是数据挖掘、数据能力分析和数学建模必不可少的一部分,而随机森林算法和决策树算法是其中较为常用的两种算法,本文将会对随机森林算法的Python实现进行保姆级教学。0 绪论数据挖掘和数学建模等比赛中,除了算法的实现,还需要对数据进行较为合理的预处理,包括缺失值处理、异常值处理、特征值的特征编码等等,本文默认读者的数据均已...

2024-08-19 10:05:11 24

转载 轨迹评估工具使用总结 evo 绘图& ROS map

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达1. Plotting 绘图工具There are several settings that allow you to change the appearance of plots.有几个设置允许您更改图表的外观。In the command line apps, take a look at parameters like ...

2024-08-19 10:05:11 8

转载 20个典型视觉检测案例!

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达机器视觉的应用案例1.打印机透明塑胶检测2. 智能卡OCR字符检测3.电池产品定位检测4.锂电池极片检测系统锂电池极片的生产过程中,会因为涂布机、辊压机的原因产生露箔、暗斑、斑、掉料等缺陷,制片后人工对极片进行检测。该检测系统可代替人工对极片进行检测,挑选出次品极片,实现极片检测的自动化。5.LCD印刷电路定位检测6.LED芯...

2024-08-19 10:05:11 21

原创 TPAMI 2024 | P2T:用于场景理解的金字塔池化Transformer

最近,视觉Transformer通过推动各种视觉任务的最前沿取得了巨大成功。视觉Transformer面临的最大挑战之一是图像标记的大序列长度导致高计算成本(二次复杂度)。解决这个问题的一个流行方法是使用单个池化操作来减少序列长度。本文考虑了如何改进现有的视觉Transformer,其中通过单个池化操作提取的池化特征似乎不够强大。为此,我们注意到金字塔池化由于其在上下文抽象方面的强能力,在各种视觉任务中已被证明是有效的。然而,金字塔池化尚未在主干网络设计中被探索。

2024-08-19 09:30:00 501

原创 TPAMI 2024 | Box2Mask: 基于包围盒的实例分割算法

与使用像素级掩码标签的全监督方法不同,基于包围盒注释的实例分割利用简单的框注释,最近吸引了越来越多的研究关注。本文提出了一种新颖的单次实例分割方法,即Box2Mask,它将经典水平集演化模型整合到深度神经网络学习中,仅使用包围盒监督就能实现精确的掩码预测。具体来说,输入图像及其深度特征被用来隐式地演化水平集曲线,并且使用基于像素亲和核的局部一致性模块来挖掘局部上下文和空间关系。

2024-08-19 09:30:00 319

转载 PyTorch全新API:几行代码实现不同注意力变体!兼具FlashAttention性能

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达转载自:机器之心 | 编辑:陈陈用 FlexAttention 尝试一种新的注意力模式。理论上,注意力机制就是你所需要的一切。然而在实际操作中,我们还需要优化像 FlashAttention 这样的注意力机制的实现。尽管这些融合的注意力机制大大提高了性能,且支持长上下文,但这种效率的提升也伴随着灵活性的丧失。对于机器学习研究人员...

2024-08-18 10:05:58 15

原创 TPAMI 2024 | TransZero++: 跨属性引导的Transformer用于零样本学习

题目:TransZero++: Cross Attribute-Guided Transformer for Zero-Shot LearningTransZero++: 跨属性引导的Transformer用于零样本学习作者:Shiming Chen; Ziming Hong; Wenjin Hou; Guo-Sen Xie; Yibing Song; Jian Zhao; Xinge You; Shuicheng Yan源码链接:https://shiming-chen.github.io/Tran

2024-08-18 09:30:00 11

原创 TPAMI 2024 | 用于检测Transformer的无监督预训练

DETECTION TRansformer (DETR) 作为目标检测的一种框架,通过Transformer编码器-解码器架构,达到了与 Faster R-CNN 相媲美的竞争力。然而,DETR 在从头开始训练Transformer时,需要大规模训练数据和在 COCO 数据集上极其漫长的训练时间表。受到自然语言处理中Transformer预训练巨大成功的启发,我们提出了一种新颖的预训练任务,名为 Unsupervised Pre-training DETR (UP-DETR) 中的随机查询块检测。

2024-08-18 09:30:00 18

转载 机器学习中的最优化算法(全面总结)

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达导言对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,小编将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。机器学习要求解的数学模型几乎所有的机器...

2024-08-17 10:41:45 27

原创 TPAMI 2024 | MS-RAFT+: 高分辨率多尺度RAFT算法

分层概念在许多经典和基于学习的光流方法中已被证明对于准确性和鲁棒性都非常有用。在本文中,我们展示了这些概念在遵循 RAFT 范式的最近神经网络中仍然很有用,这些网络避免使用分层策略,而是依赖于基于单尺度全对转换的递归更新。为此,我们介绍了 MS-RAFT+:一种新颖的基于 RAFT 的递归多尺度架构,它统一了几个成功的分层概念。它采用从粗到细的估计,通过从较粗糙尺度的有用初始化来使用更细的分辨率。此外,它依赖于 RAFT 的相关金字塔,允许在匹配过程中考虑非局部代价信息。

2024-08-17 09:30:00 117

原创 TPAMI 2024 | 通过多重相似张量集成的深度张量谱聚类网络

张量谱聚类(TSC)是一种新兴的方法,通过探索多样的相似性来增强学习。然而,现有的TSC方法尚未解决两个关键问题:(1)构建和存储高阶相似张量以编码多样相似性需要大量内存,限制了它们的适用性;(2)大多数方法采用两阶段方法,整合不同阶次的多个相似张量来学习共识张量谱嵌入,这通常导致次优的聚类结果。为此,本文提出了一种张量谱聚类网络(TSC-Net),以实现共识张量谱嵌入的一阶段学习,同时减少内存成本。TSC-Net使用深度神经网络学习将输入样本映射到共识张量谱嵌入,由多种相似张量指导的TSC目标函数引导。

2024-08-17 09:30:00 14

转载 跟你聊聊时间序列定义、均值、方差、自协方差及相关性

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达编辑:机器学习研习院分享一篇时间序列的干货文章。时间序列的定义一个时间序列过程(time series process)定义为一个随机过程,这是一个按时间排序的随机变量的集合,也就是将每一个时刻位置的点作为一个随机变量。 是索引集合(index set), 决定定义时序过程以及产生观测值的一个时间集合 。其中假定随机变量 的...

2024-08-16 10:13:00 23

转载 学术顶会变成了“大厂”顶会?

前几天,有个粉丝在后台给我留言,他说:不知道大家的论文都写得怎么样了?我现在是恨不得克隆十个自己,一个泡在实验室盯实验结果,一个去写月底要送审的稿子.....可现实是只有一个我,只能天天熬夜。他不是个例,成千上万的科研人都要面对无尽的实验、反复修改的论文。我们都知道写论文最头疼的不是事情多,是那些没有任何操作性可言的「重复劳动」。一整天下来,全在找梯子、找文献、找前沿成果,然后还要打包下载,有的P...

2024-08-16 10:13:00 11

转载 目标检测:模板匹配

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达简介模板匹配是一种高级计算机视觉方法,可检测与预定模板匹配的图像部分。先进的模板匹配算法检测模板的出现,无论其方向或局部亮度如何。在医学图像分析中,不变特征或创新应用通常用作对象识别领域,例如车辆跟踪、机器人和制造。模板匹配方法用途广泛且易于应用,使其成为最常用的对象定位方法之一。它们的实用性主要受计算机容量的限制,因为识别大型...

2024-08-16 10:13:00 24

转载 大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023...

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达前言现在Stable Diffusion已经能重建大脑视觉信号了!就在昨晚,一个听起来细思极恐的“AI读脑术”研究,在网上掀起轩然大波。转载自丨量子位这项研究声称,只需用fMRI(功能磁共振成像技术,相比sMRI更关注功能性信息,如脑皮层激活情况等)扫描大脑特定部位获取信号,AI就能重建出我们看到的图像!例如这是一系列人眼看到...

2024-08-16 10:13:00 10

原创 TPAMI 2024 | 自监督视频中心化变换器在视频人脸聚类中的应用

本文提出了一种新颖的视频中心变换器方法,用于视频流中的面部聚类。以往的研究通常采用对比学习来学习帧级表示,并使用平均池化沿时间维度聚合特征。这种方法可能无法完全捕捉复杂的视频动态。此外,尽管近期在基于视频的对比学习方面取得了进展,但鲜有研究尝试学习一种自监督聚类友好的面部表示,以利于视频面部聚类任务。为了克服这些限制,我们的方法采用变换器直接学习视频级表示,更好地反映视频中面部的时间变化属性,同时我们也提出了一种视频中心自监督框架来训练变换器模型。

2024-08-16 09:30:00 19

原创 TPAMI 2024 | 从网络视频中多任务学习物体状态和状态修改动作

我们旨在通过观察人们在长时间未经编辑的网络视频中与物体互动,学习物体状态变化和相应的状态修改动作的时间定位。我们介绍了三个主要贡献。首先,我们开发了一种自监督模型,用于从互联网未编辑的视频集中联合学习状态修改动作及其相应的物体状态。该模型通过因果排序信号(即初始物体状态→操控动作→结束状态)进行自我监督。其次,我们探索了替代的多任务网络架构,并确定了一种能够高效联合学习多个物体状态和动作的模型,例如一起倒水和倒咖啡。

2024-08-16 09:30:00 208

Python视觉实战项目31讲.pdf

本手册中主要涉及以下几部分,首先是对 OpenCV中自带的基本函数进行介绍。其次是OpenCV的实战项目,一方面是基于实际项目利用OpenCV实现特定对象的检测,例如车道线检测、路面的坑洼检测、等;另一方面是基于OpenCV实现图像增强,例如利用OpenCV消除运动所引起的图像模糊等。最后是OpenCV与深度学习等其他相结合实现图像分割、人脸检测、运动检测等难度较大的问题。

2020-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除