Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning
Method
E Step
- 更新 φ φ φ 通过最小化 K L ( q φ ( z ∣ X ) ∣ ∣ p θ ( z ∣ X , y c ) ) KL(q_φ(z|X) || p_θ(z|X, y_c)) KL(qφ(z∣X)∣∣pθ(z∣X,yc))。
- 这里假设posterior p θ ( z t ∣ X t , y c ) p_θ(z_t|X_t, y_c) pθ(zt∣Xt,yc)与分类分数成正比,因此更新 q φ q_φ qφ使用从分类分数得到的伪标签。
- 伪标签设置如下:(就是说,如果视频中包含第
c
c
c类并且在第
t
t
t帧的预测大于平均值,则认为是行为。)
- 使用二值交叉熵损失:
M Step
- 更新 p θ p_θ pθ
- 伪标签:
- 使用交叉熵损失: