Gaze Estimation using Transformer代码模块解读

最新推荐文章于 2024-12-26 13:14:22 发布

skpl_w

最新推荐文章于 2024-12-26 13:14:22 发布

阅读量849

点赞数 2

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/w12345815856_/article/details/129545703

版权

代码链接：GitHub - yihuacheng/GazeTR: The codes and models in 'Gaze Estimation using Transformer, ICPR2022'.

项目主目录为GazeTR，在主目录下有许多子模块。以下为分模块解读。

config

config模块下有test和train俩个子模块，其中均为.yaml文件，分别是在四个gaze数据集下，对一些超参数的基本设置，以及数据集的存储路径。以训练gaze360数据集为例，相关设置如下：

reader

reader模块定义了一个用于读取数据的PyTorch数据加载器，用于加载和预处理训练用的图像和标签数据。

Decode_MPII、Decode_Diap、Decode_Gaze360、Decode_ETH和Decode_RTGene函数用于解析不同数据集的注释。它们将注释数据的一行作为输入，并返回一个包含相关字段（例如，面部图像文件名、2D凝视坐标等）作为键的字典对象。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

skpl_w

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

gaze360代码运行结果分析

w12345815856_的博客

10-22

713

gaze360代码运行结果分析

【AI视野·今日CV 计算机视觉论文速览第210期】Tue, 1 Jun 2021

TomRen

06-01

1816

AI视野·今日CS.CV 计算机视觉论文速览新的transformer架构和应用

参与评论您还未登录，请先登录后发表或查看评论

GazeML: 基于深度学习的视线估计框架

最新发布

gitblog_00761的博客

12-26

384

GazeML: 基于深度学习的视线估计框架 GazeML Gaze Estimation using Deep Learning, a Tensorflow-based framework. 项目地址: https://gitco...

Gaze Estimation视线估计数据集处理知识（MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze）

Justineone的博客

02-11

3967

Gaze Estimation人脸数据集学习（MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze）

pytorch_mpiigaze_demo:使用MPIIGaze和MPIIFaceGaze进行注视估计

05-03

MPIIGaze和MPIIFaceGaze的演示程序使用此程序，您可以在图像和视频上运行凝视估计。默认情况下，使用来自网络摄像头的视频。（原始视频来自。）（原始图像来自。）要训练模型，请使用。快速开始安装 pip install ptgaze 运行演示 ptgaze --mode eye 用法 usage: ptgaze [-h] [--config CONFIG] [--mode {eye,face}] [--face-detector {dlib,face_alignment_dlib,face_alignement_sfd}] [--device {cpu,cuda}] [--image IMAGE] [--video VIDEO] [--camera CAMERA] [--o

计算机视觉论文-2021-06-01

中科院AI算法工程师的博客

06-01

3781

本专栏是计算机视觉方向论文收集积累，时间：2021年5月1日，来源：paper digest 欢迎关注原创公众号【计算机视觉联盟】，回复【西瓜书手推笔记】可获取我的机器学习纯手推笔记！直达笔记地址：机器学习手推笔记（GitHub地址） ...

双向融合CNN与Transformer的三维视线估计

强化学习曾小健

11-23

711

针对当前视线估计任务在无约束环境中易受影响因素干扰，准确度不高的问题，提出一种卷积与注意力双分支并行的特征交叉融合视线估计方法，提升了特征融合的有效性和网络性能。首先，对Mobile-Former网络进行改进，引入了线性注意力机制和部分卷积，有效提高了特征提取能力并且降低了计算成本;其次，增加了基于300W-LP数据集预训练的ResNet50头部姿态特征估计网络分支来增强视线估计的准确度，并使用Sigmoid函数作为门控单元来筛选有效特征;

Human-object interaction prediction in videos through gaze following

weixin_46179086的博客

07-30

678

The video-based HOI anticipation task in the third-person view is rarely researched. In this paper, a framework to detect current HOIs and anticipate future HOIs in videos is propose.

CVPR 2021最全论文开放下载！附pdf下载链接！

热门推荐

中科院AI算法工程师的博客

06-18

1万+

CVPR 2021最全论文开放，附所有pdf下载链接！

【AI视野·今日CV 计算机视觉论文速览第236期】Tue, 28 Sep 2021

TomRen

09-28

2245

AI视野·今日CS.CV 计算机视觉论文速览 PASS自监督学习数据集、压缩视觉表示、视觉语言模型、matting、树状架构、注意力数据集。

GazeCapture:所有人的眼动追踪

05-04

眼动追踪每个人的代码，数据集和模型介绍这是与2016 CVPR论文“所有人的眼动跟踪”相关的官方代码，数据集和模型版本的README文件。数据集发布分为三个部分：数据（图像文件和关联的元数据）模型（Caffe模型定义）代码（一些必要的脚本来利用数据）继续阅读有关每个部分的更多信息。历史对数据集的任何必要更改将在此处记录。 2017年3月：原始代码，数据集和模型发布。用法此数据集（包括所有数据，模型和代码）的使用受相关的许可证的约束。该许可证仅允许将发布的代码，数据集和模型用于研究目的。我们还要求您引用相关的论文，如果您使用此数据集；以下是BibTeX条目： @inproceedings{cvpr2016_gazecapture, Author = {Kyle Krafka and Aditya Khosla and Petr Kellnhofer

gazeDataCapture:凝视估计数据捕获，眼动追踪

05-18

注视数据捕获在论文“ MPIIGaze：真实世界的数据集和基于深度外观的注视估计”中实现数据捕获

Google Open Images Mutual Gaze dataset Google Open Images相互注视数据集-数据集

03-18

数据集以CSV文件形式发布。CSV文件中的每一行对应一个数据样本，该样本由图像和注释组成，这些图像和注释指示照片中的两张面孔是否在互相看。 test_data.csv train_data.csv README.md

论文中发布了大规模视点估计数据库MPIIGaze，并提出了一种16层的GazeNet用于Gaze estimation

04-24

Learning-based methods are believed to work well for unconstrained gaze estimation, i.e. gaze estimation from a monocular RGB camera without assumptions regarding user, environment, or camera. However, current gaze datasets were collected under laboratory conditions and methods were not evaluated across multiple datasets. Our work makes three contributions towards addressing these limitations. First, we present the MPIIGaze dataset, which contains 213,659 full face images and corresponding ground-truth gaze positions collected from 15 users during everyday laptop use over several months. An experience sampling approach ensured continuous gaze and head poses and realistic variation in eye appearance and illumination. To facilitate cross-dataset evaluations, 37,667 images were manually annotated with eye corners, mouth corners, and pupil centres. Second, we present an extensive evaluation of state-of-the-art gaze estimation methods on three current datasets, including MPIIGaze. We study key challenges including target gaze range, illumination conditions, and facial appearance variation. We show that image resolution and the use of both eyes affect gaze estimation performance, while head pose and pupil centre information are less informative. Finally, we propose GazeNet, the first deep appearance-based gaze estimation method. GazeNet improves on the state of the art by 22% (from a mean error of 13.9 degrees to 10.8 degrees) for the most challenging cross-dataset evaluation

Gaze Estimation人脸数据集学习（MPIIFaceGaze、EyeDiap、Gaze360、ETH-Gaze）

Justineone的博客

12-11

4260

视线估计四个数据集的采集方法和内容介绍

Openface (二) EYE GAZE 算法综述

weixin_41386168的博客

07-16

6973

(一)三维视线估计 4.1 目标从眼睛图片或人脸图片中推导出人的视线方向，通常用pitch（垂直方向）和 yaw（水平方向）表示。需要注意的是，在相机坐标系下，视线的方向不仅取决于眼睛的状态（眼珠位置，眼睛开合程度等），还取决于头部姿态（虽然眼睛相对头部是斜视，但在相机坐标系下，他看的是正前方）。 4.2 评价指标在模型估计出 pitch 角和 yaw 角之后，可以计算出代表视线方向的三维向量，该向量与真实的方向向量（ground truth）之间的夹角即是 gaze 领域最常用的评价指标。 4.3

GazeCapture数据集

astglf520的博客

04-10

855

这数据集的官方网站下得慢得要死还不支持断点续传，我搞了好半天最后还是去找人代下了，这里贴个网盘，以后要用数据集下不下了的希望这个可以帮你省点钱。链接：https://pan.baidu.com/s/1WmaQbCTHwLYUxsOKqrcMNg?

Vision Transformer（1）：ViT源码逐行阅读解析

qq_42418728的博客

09-18

5051

上图是Visual Transformer原文的模型结构展示，可以看到模型包含了几个核心模块： 1.Norm层 2.Multi-Head Attention层 3.MLP多层感知器一、Norm层 class PreNorm(nn.Module): # fn：前馈网络，包含attention层以及残差结构 ''' param: dim输入维度 fn前馈网络层，选择Multi-Head Attn和MLP二者之一 ''' ...

【创新实训3】Tensorflow学习与Gaze Model设计和训练

Jemary_的博客

03-31

2046

这周计划学习Tensorflow的一些知识并根据上次论文的研究构建视觉追踪的模型。所以首先是对最基本的Tensorflow去构建模型的方法简单学习： 1.CNN基本模型对于CNN的模型之前的理论基础知识已经有过学习，便不再展开讲解，只是讲一下基本结构：卷积神经网络CNN的结构一般包含这几个层：输入层：用于数据的输入卷积层：使用卷积核进行特征提取和特征映射激励层：由于卷积也...

arenet gaze estimation pytorch

09-17

AreNet是一个基于PyTorch的深度学习模型，用于估计人的凝视方向。人的凝视方向是指一个人目光所注视的方向或位置，这对于理解人的视觉行为和认知过程非常重要。通过凝视估计，可以预测人的注意力焦点和感兴趣区域，从而可以应用于多个领域。 AreNet模型使用卷积神经网络（CNN）和循环神经网络（RNN）的结合来学习凝视方向的模式。首先，通过CNN提取输入图像的特征，然后将这些特征传递给RNN进行时序建模。模型学习了人眼在不同时间点的凝视方向和先前凝视之间的相关性。最后，通过训练模型的权重，能够根据给定图像预测人的凝视方向。 PyTorch是一个广泛应用于深度学习研究和开发的开源框架。它提供了高级的计算图和自动求导功能，使得模型的构建和训练变得简单和高效。使用PyTorch，我们可以方便地实现和训练AreNet模型，并根据实际需求进行优化和调整。总之，AreNet是一个基于PyTorch的深度学习模型，用于估计人的凝视方向。它可以通过提取图像特征和时序建模的方法来预测人的注意力焦点和感兴趣区域。使用PyTorch作为开发框架，可以更加方便地构建和训练模型，并应用于多个领域，如计算机视觉、人机交互等。