①基于Transformer和U-Net的视频异常检测方法,针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集、本文提出了基于Transformer和U-Net混合网络的视频异常检测算法,将基于自注意力机制的Transformer嵌入U-Net网络学习正常事件的局部和全局时空信息,捕捉更丰富的特征信息。
②自注意力机制通过计算每一个位置与其他位置之间的相关性,得出每一个位置相对于所有位置的权重,这个权重用来加权求和。得到的加权和就是该位置的特征表示
U-Net网络是一种常用于图像分割的网络模型,其具有编码器和解码器两部分,分别用于提取特征和还原分割结果。
Transformer是一种机器学习模型架构,在自然语言处理领域广泛使用,它是通过自注意力机制来处理序列数据的。
③本文在特征层面通过Transformer进行运动模式挖掘,提升了异常检测的性能,并进行了可视化分析+收集了针对异常分析的室内动作数据集+(针对周期性的近景手部动作)除了传统的重建损失外,本文进一步引入动态图约束引导网络关注运动轨迹区域。+Transformer 模块以及动态图约束
④卷积自编码器网络的特征提取能力有限,难以处理复杂场景的各种异常模式-------本文将预测网络和具有强特征表达能力的 Transformer 网络结合,通过学习有视频帧的正常模式来预测下一帧,并根据预测帧 和真实帧的差异来判断异常。
⑤强度指的是图像像素的亮度或颜色值,梯度是指图像中像素强度的变化率。
⑥问题:针对视频序列中每帧图像上的空间异常关注相对薄弱,如异常发生的位置。