视线追踪（Estimation of Gaze-Following）文献阅读：Believe It or Not, We Know What You Are Looking At

cartes1us

已于 2022-08-15 16:50:13 修改

阅读量831

点赞数

分类专栏：其他CV领域 paper 文章标签：深度学习人工智能 python 计算机视觉

于 2022-08-14 11:43:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kill2013110/article/details/126324575

版权

paper 同时被 2 个专栏收录

7 篇文章

订阅专栏

1 篇文章

订阅专栏

ReadPaper文章地址
在这里插入图片描述
文章名称风格飘逸。这个是解决视线追踪任务的文章，第一次接触。因此做一下笔记。
视线追踪任务很好理解，就是找出图中某个人物的视线焦点。

文章所提出的双阶段解决方案：

在这里插入图片描述

输入头部图像和头部坐标（可以认为是多模态输入），利用cnn和fc得到一个预测的视线方向，从而生成多尺度的视线方向场。
将多尺度的视线方向场与原图concatenate，再次使用cnn（FPN结构）得到视线焦点的热图。

一些细节：

如何生成多尺度的视线方向场？
h为头部坐标，p为图中任意点的坐标，那么由1式得到方向向量G：

然后计算G与预测的方向 $\hat{d}$ 的相似度Sim§:

那么限制G在 $\hat{d}$ 正负90度范围内（向后看没意义），可以得到这样的视线场：

最后再做幂次运算，就可以得到多尺度的视线场（文中λ又取了2和5）。
在这里插入图片描述

ground truth 的Heatmap是用高斯核生成的：

网络训练

该网络是可以端对端训练的

视线方向损失：

$\hat{d}$ 是预测的坐标算出来的归一化后的方向，d是groundtruth方向。
热图的损失（BCE loss）：

$\hat{H}$ 是预测的热图中的某个点的值。N是热图的像素数，文中为56*56个。
总损失：

文中平衡系数λ设置为0.5。

好了，网络介绍完了，还是很简单的。

评价指标

评价指标主要有AUC， Dist， MDist，Ang， MAng，基本都是 15年的Where are they looking这篇文章提出的，也都比较好理解。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。