自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 【阅读笔记】Learning Video Representations from Large Language Models从大型语言模型学习视频表征信息

LAVILA,一种新的方法来利用大模型去学习视频语言表示。重新利用预先训练的大模型,以适应视觉输入,并微调他们创建自动视频注释器。作者团队的自动生成的叙述提供了许多优势,包括长视频的密集覆盖,视觉信息和文本的更好的时间同步,以及更高的文本多样性。与这些叙述对比学习的视频语言嵌入在多个第一人称和第三人称视频任务中的表现优于以前的最先进技术,无论是在零样本和微调设置中。最值得注意的是,LAVILA在EGTEA分类中获得了10.1%的绝对收益,在Epic-Kitchens-100多实例检索基准中获得了5.9%的绝

2023-10-13 13:43:28 377

原创 【阅读笔记】 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

视频语言预训练(VLP)由于其可以推广到各种视觉和语言任务中的能力而变得十分重要。然而,现有的第一视角VLP框架利用单独的视频和语言编码器,并且仅在微调期间学习特定于任务的跨模态信息,从而限制了统一系统的开发。在这项工作中,作者提出了第二代第一视角视频语言预训练(EgoVLPv2)模型,这是对上一代的重大改进,通过将跨模态融合直接纳入视频和语言主干。EgoVLPv2在预训练期间学习强视频-文本表示,并重用跨模态注意力模块,以灵活高效的方式支持不同的下游任务,降低微调成本。此外,相较于堆叠额外的融合特定的层的

2023-09-19 16:07:29 350 1

原创 第一视角/第一人称数据集

大量开放的第一人称或者第一视角的数据集,方便读者快速查阅下载使用

2023-09-02 15:41:55 1252 5

原创 【必备知识】PyTorch 高频使用代码

继承torch.nn.Module类写自己的loss。

2023-08-31 15:04:25 95

原创 【必备知识】 三维空间/坐标转换/相机知识

以下内容包含了2D坐标与3D坐标系之间的转换以及关于相机场的基础知识,理解这部分内容可以更快入门SLAM相关、多视角合成、三维空间变换等内容。

2023-08-29 10:04:54 1852 3

原创 【必备知识】评估指标介绍

以下内容是针对常用常见的几项评价指标的介绍,在深度学习以及人工智能的领域内,我们必须熟知并且理解,下面会通过简明扼要的介绍进行讲解,通俗易懂,非计算机专业人员也可以理解并掌握。

2023-08-23 15:54:59 355

原创 【阅读笔记】 EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding

第一视角视频理解模型的最新进展是具有潜质的,但其昂贵的计算成本却是很多基于现实世界中的应用程序的发展障碍。为了解决这一挑战,作者提出了EgoDistill,一种基于蒸馏的方法,通过将稀疏视频帧语义信息和由轻量IMU读取的头部运动信息相结合,学习并重构第一视角的视频片段特征。同时,作者进一步设计了一种新的自监督训练策略,用于进行IMU特征学习。他们的方法可以显著提高效率,需200倍甚至更少的GFLOPs.

2023-08-04 01:14:59 218 1

原创 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

现有的深度视频模型受到特定任务、固定输入输出空间和泛化能力差等因素的限制,难以在现实场景中进行部署。在本文中,作者提出了一个多模态和多功能的视频理解的视觉原型系统,名字叫ChatVideo。他们这个系统建立在以轨迹tracklets为中心的方法范式基础上,这个方法将轨迹本身视为基本的视频单元,采用多种视觉基础模型来注释它们的属性,例如外观、动作等所有检测到的轨迹片段都存储在数据库中,并通过数据库管理器与用户交互。

2023-07-12 16:02:16 1664 2

原创 基于机器学习的视频防抖处理

视频防抖稳定该怎么解决?现今有哪些值得借鉴的方式?一起来看看吧随着时间的推移,机器人将会获得一个实际的偏移角度,对这种漂移影响最大的因素是陀螺仪的偏置稳定度规格,这是衡量陀螺仪在长时间段内测量结果稳定性的一个指标。如果将机器人开启一个小时并且不移动它,陀螺仪在一个小时结束时读取的数值就不是零。也就是说如果开电一个小时,机器人放置静止,一个小时后可能机器人会产生20-30度的偏转角度,而开电十分钟之内可能会产生3度左右的偏转,这些偏移角度都将是机器人前进方向相比...

2022-09-01 11:55:17 4402 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除