行人检测与车辆重识别技术解析
行人检测方法 PDSA
在行人检测领域,提出了一种名为 PDSA 的新方法,旨在解决行人遮挡问题。
分割网络结构
分割网络采用与 VGG16 相同的结构,但移除了池化层,并将后续的两个卷积块替换为扩张卷积块(B4 和 B5)。还利用两个带有 Sigmoid 函数的 1×1 卷积层(B6 和 B7)分别生成分割预测和语义注意力图。
由于真实标签是可见边界框,仅包含四个坐标点,不能直接输入。因此,将可见边界框缩放为 1/4,使其与分割预测结果大小相同,并将可见边界框内的所有像素设为 1,其他像素设为 0,从而得到分割真实标签。
损失函数
由于可见部分占比小,导致正负样本不平衡。为使语义分割任务收敛,引入了焦点损失进行优化:
[
L_{Segmentation} =
\begin{cases}
-(1 - p)^c \log(p) & \text{if } y = 1 \
-p^c \log(1 - p) & \text{otherwise}
\end{cases}
]
其中,$y \in {0, 1}$ 是每个像素的真实类别,$p \in [0, 1]$ 是标签 $y = 1$ 类别的概率。
PDSA 的最终目标函数为:
[
L = L_{Regression} + L_{Classification} + \alpha L_{Rep} + \beta L_{Segmentation}
]
其中,$L_{Regression}$ 是原始边界框回
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



