融合自注意力和自编码器的视频异常检测

qq_52259359

于 2023-06-27 11:21:45 发布

阅读量416

点赞数

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52259359/article/details/131391261

版权

文章提出了一种结合Transformer和U-Net的视频异常检测算法，针对近景康复动作，利用自注意力机制学习时空信息，并构建室内近景动作数据集。通过Transformer强化特征提取，引入动态图约束增强对运动轨迹的关注，改善了对空间异常定位的准确性。此外，它还解决了传统卷积自编码器在复杂场景异常模式处理中的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

①基于Transformer和U-Net的视频异常检测方法，针对近景康复动作的异常反馈需求，本文基于周期性动作收集了一个室内近景数据集、本文提出了基于Transformer和U-Net混合网络的视频异常检测算法，将基于自注意力机制的Transformer嵌入U-Net网络学习正常事件的局部和全局时空信息，捕捉更丰富的特征信息。

②自注意力机制通过计算每一个位置与其他位置之间的相关性，得出每一个位置相对于所有位置的权重，这个权重用来加权求和。得到的加权和就是该位置的特征表示

U-Net网络是一种常用于图像分割的网络模型，其具有编码器和解码器两部分，分别用于提取特征和还原分割结果。

Transformer是一种机器学习模型架构，在自然语言处理领域广泛使用，它是通过自注意力机制来处理序列数据的。

③本文在特征层面通过Transformer进行运动模式挖掘，提升了异常检测的性能，并进行了可视化分析+收集了针对异常分析的室内动作数据集+(针对周期性的近景手部动作)除了传统的重建损失外，本文进一步引入动态图约束引导网络关注运动轨迹区域。+Transformer 模块以及动态图约束

④卷积自编码器网络的特征提取能力有限，难以处理复杂场景的各种异常模式-------本文将预测网络和具有强特征表达能力的 Transformer 网络结合，通过学习有视频帧的正常模式来预测下一帧，并根据预测帧和真实帧的差异来判断异常。

⑤强度指的是图像像素的亮度或颜色值，梯度是指图像中像素强度的变化率。

⑥问题：针对视频序列中每帧图像上的空间异常关注相对薄弱，如异常发生的位置。

博客等级

码龄5年

23
原创

46
点赞

65
收藏

47
粉丝

关注

私信

热门文章

最新评论

linux环境下pytorch（GPU版本）的安装
qq_52259359: pip install torch==1.13.0+cu117 torchvision==0.14.0+cu117 torchaudio==0.13.0 -f https://download.pytorch.org/whl/torch_stable.html
linux环境下pytorch（GPU版本）的安装
qq_52259359: sudo apt update sudo apt install gcc
深度学习DAY 1
CSDN-Ada助手: 恭喜您完成了第20篇博客，深度学习是一个非常有趣但也复杂的领域，能够坚持写下去真的很不容易。接下来，我建议您可以尝试分享一些具体的案例或者实践经验，这样能够更好地帮助读者理解深度学习的应用和实际操作。希望您能够继续保持热情，坚持不懈地创作下去。加油！
DAY 1
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。