Believe It or Not, We Know What You Are Looking at 阅读笔记

视线跟踪介绍

视线跟踪的任务是在图片中跟踪一个人的视线并推断他的视线目标,其难点在于:
1、准确地推断视线落点需要图片的深度信息、头部的位置和眼球的位置,但是这些信息会因为遮挡等原因而难以获取。
2、不同的第三方观擦者得出的同一张图片中的视线目标可能会不同。
3、视线跟踪需要找到人与人或物之间的几何关系,而这几何关系通常非常复杂

早期的工作通过简化条件来解决上述难点,比如限制输入的图片中视线目标必须清楚且唯一,但这同样限制了其成果的应用范围。

实现方法

人们推断图片中的人的视线目标时,通常会根据头部的位置判断视线方向,然后根据视线方向上的图片内容估计视线目标。本文的作者模仿了人们的行为,提出了一个两阶段的方法预测视线目标。
第一阶段根据头部位置和头部图像,搭建gaze direction pathway来预测视线方向。仅根据头部信息,预测视线方向会比直接预测视线目标更准确。然后将视线方向处理成multi-scale gaze direction filed。
第二阶段根据视线方向和方向上的物体预测视线目标,将multi-scale gaze direction filed和原始图像进行拼接,输入给heatmap pathway,得到最后结果。

模型

在这里插入图片描述

Gaze direction pathway

输入为头部图像和头部坐标。用ResNet-50 对头部图像进行特征提取,再经过一个全连接层处理。用三个全连接层对头部坐标进行处理。然后将两者拼接,得到一个768维的特征,经过一个全连接层处理得到输出——预测的视线方向

Gaze direction field

一个人的视线区域通常是一个圆锥体,定点是头部坐标。因此视线方向预测完成后,给定图象上任意一点P,P是视线目标的概率与直线HP和预测视线方向的夹角大小成正比例,其中点H是头部坐标。如果夹角越小,则概率越大。
直线HP表示如下:
在这里插入图片描述
概率表示如下:
在这里插入图片描述
其中d表示预测的视线方向

如果预测的视线方向是正确的,则希望沿着视线方向,概率的分布是尖锐的;若预测的视线方向是错误的,则希望沿着视线方向,概率的分布是平缓的。论文作者用如下公式控制gaze direction field
在这里插入图片描述
其中γ表示视线区域圆锥体的半径。论文作者采用了γ1=5,γ2=3和γ3=1三种情况
在这里插入图片描述

Heatmap pathway

将gaze direction field和原始图像作为输入,得到heatmap结果,其中的最大值就是预测的视线目标。heatmap pathway的最后一层通过sigmod激活函数,确保每个像素点的概率都在区间[0,1]中。
预测结果是heatmap pathway而不是一个直接的视线目标坐标的原因有一下两点:
1、直接将图像投影到视线目标坐标是一个高阶非线性函数。因此heatmap预测具有更高的鲁棒性,适用于更多场合;
2、有时候由于头部被遮挡等原因,视线的目标是不明确的。因此预测的结果应该可以有多个选择。
对于一个第三方观察者认定的真实的视线目标 g = (gx,gy),其heatmap通过高斯核计算,公式如下
在这里插入图片描述
其中,H就是heatmap, σ \sigma σ的取值是3

神经网络训练

神经网络的输入分为三个部分,头部图像、头部坐标和原始图像,其中头部图像和原始图像大小为224×224,头部坐标是原始图像标准化为 1X1 时的坐标。输出是标准化向量视线方向和56×56的heatmap。

视线方向的损失函数为
在这里插入图片描述
其中 d 表示真实的视线方向(第三方观察者标记), d ^ \hat{d} d^ 表示预测的视线方向

heatmap回归损失函数为BCE Loss,公式如下
在这里插入图片描述
其中 H 表示真实视线目标的heatmap, H ^ \hat{H} H^表示预测的视线目标的heatm,N表示heatmap的大小56×56
总的损失函数为
在这里插入图片描述
其中λ取值为0.5

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值