先看看行人属性识别RNN结构: backbone是ResNet50,输出是每一帧的空间特征。这组特征被送到两个分支,分别是空间池化和时间建模。最后两种特征拼接。然后分类(FC)。 LSTM关注帧间变化。受cvpr《Recurrent Convolutional Network for Video-Based Person Re-identification》启发,论文作者使用了max-pooling, mean-pooling用于空间和时间特征。
创新点1.行人属性库2.行人属性识别的RNN框架及其池化策略总结先看看行人属性识别RNN结构:backbone是ResNet50,输出是每一帧的空间特征。这组特征被送到两个分支,分别是空间池化和时间建模。最后两种特征拼接。然后分类(FC)。LSTM关注帧间变化。受cvpr《Recurrent Convolutional Network for Video-Based Person Re...