逸步行天下-CSDN博客

原创【国内下载Ego4D数据集】

众所周知，国内下载Ego4D数据集有多么的困难，但是本人亲测，采用如下方案下载了full-data的7T

2024-09-13 17:58:26 872

原创【浅显易懂系列】Pytorch快速认识和掌握向量乘积运算

在PyTorch中，向量和矩阵之间的不同乘积操作非常关键，尤其是在进行深度学习模型构建和数学运算时。下面，我将详细解释您提到的几种乘积类型，并提供具体的代码示例和使用场景。

2024-09-11 10:16:22 536

原创【浅显易懂系列】目标跟踪各大派别的划分

从最早的相关滤波算法到如今的深度学习方法，目标跟踪算法在原理、性能和应用场景上均取得了显著进步。传统方法计算效率高，但处理复杂情况能力有限；深度学习方法则通过强大的特征表示和学习能力，显著提高了跟踪的准确性和鲁棒性。未来，随着技术的不断发展，目标跟踪算法将在更多领域展现出其巨大的应用潜力。

2024-09-10 11:40:31 1120

原创【一日速成编程系列】用Pytorch操作图像

一日速成编程系列，用Pytorch操作图像

2024-09-07 11:37:06 870

原创【浅显易懂系列】DETR详细解释，一看就懂也！

DETR（Detection Transformer）是一种基于Transformer的目标检测模型，它通过端到端的训练来直接预测目标的位置和类别。下面，我将选取DETR模型中的核心部分，使用PyTorch进行逐行解释，并注释其维度。

2024-09-05 11:22:35 266

原创【浅显易懂系列】目标检测Anchor和Proposal以及Two- stage和Single-stage

浅显易懂的讲解目标检测相关知识点，今天是：anchor和proposal，two-stage和one-stage

2024-09-04 10:59:10 761

原创【浅显易懂系列】BA光束法平差法

BA光束法平差是一种通过优化相机位姿和三维点坐标来减小重投影误差的技术。它广泛应用于摄影测量和计算机视觉领域，是构建高精度三维模型的重要工具。通过数学公式和通俗事例的结合，我们可以更深入地理解BA的基本原理和优化过程。

2024-09-03 19:00:12 770

原创【阅读笔记】Learning Video Representations from Large Language Models从大型语言模型学习视频表征信息

LAVILA，一种新的方法来利用大模型去学习视频语言表示。重新利用预先训练的大模型，以适应视觉输入，并微调他们创建自动视频注释器。作者团队的自动生成的叙述提供了许多优势，包括长视频的密集覆盖，视觉信息和文本的更好的时间同步，以及更高的文本多样性。与这些叙述对比学习的视频语言嵌入在多个第一人称和第三人称视频任务中的表现优于以前的最先进技术，无论是在零样本和微调设置中。最值得注意的是，LAVILA在EGTEA分类中获得了10.1%的绝对收益，在Epic-Kitchens-100多实例检索基准中获得了5.9%的绝

2023-10-13 13:43:28 433

原创【阅读笔记】 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

视频语言预训练（VLP）由于其可以推广到各种视觉和语言任务中的能力而变得十分重要。然而，现有的第一视角VLP框架利用单独的视频和语言编码器，并且仅在微调期间学习特定于任务的跨模态信息，从而限制了统一系统的开发。在这项工作中，作者提出了第二代第一视角视频语言预训练（EgoVLPv2）模型，这是对上一代的重大改进，通过将跨模态融合直接纳入视频和语言主干。EgoVLPv2在预训练期间学习强视频-文本表示，并重用跨模态注意力模块，以灵活高效的方式支持不同的下游任务，降低微调成本。此外，相较于堆叠额外的融合特定的层的

2023-09-19 16:07:29 420 1

weixin_39188311的博客

原创【国内下载Ego4D数据集】

原创【浅显易懂系列】Pytorch快速认识和掌握向量乘积运算

原创【浅显易懂系列】目标跟踪各大派别的划分

原创【一日速成编程系列】用Pytorch操作图像

原创【一日速成编程系列】几行代码学会Pytorch

原创【一日速成编程系列】几行代码学会Python

原创【浅显易懂系列】DETR详细解释，一看就懂也！

原创【浅显易懂系列】目标检测Anchor和Proposal以及Two- stage和Single-stage

原创【浅显易懂系列】BA光束法平差法

原创【阅读笔记】Learning Video Representations from Large Language Models从大型语言模型学习视频表征信息

原创【阅读笔记】 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

原创第一视角/第一人称数据集

原创【必备知识】PyTorch 高频使用代码

原创【必备知识】三维空间/坐标转换/相机知识

原创【必备知识】评估指标介绍

原创【阅读笔记】 EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding

原创 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

原创基于机器学习的视频防抖处理

空空如也

空空如也