Continuous Sign Language Recognition with Correlation Network
Paper: https://arxiv.org/abs/2303.03202
Code: https://github.com/hulianyuyy/CorrNet
Correlation Module 相关性模块
手语是通过身体部位,如手,身体,头等部位来传达的,然而在不同帧中,身体部位所处的像素点并不是对齐的,所以我们建议在相邻帧中计算相关性图以便计算身体运动轨迹。
对于每个当前帧xt,其中的每个像素点代表了人体部位的特征值,如手,肘,头等。将当前帧与前后两帧放在一起,通过一系列计算,即可得到当前像素(i, j)与相邻帧像素的亲密度,具体操作如下:
参照图3,对于xt上的每一个像素,分别在前后两帧 K*K 的范围内进行计算,可以得到像素与像素之间的亲密度。
计算公式如下:
此处非常类似于注意力机制
当前帧与相邻帧的每个像素点一一相乘,得到每一对像素点之间的亲密关系A,形状为HWSD
A(i, j, i' ,j')表示xt中某一像素(i, j)与xt+1中某一像素(i', j')的亲密关系