动作检测是计算机视觉领域的重要任务,其在视频监控、自动驾驶、人机交互等领域具有广泛的应用前景。传统的动作检测方法通常依赖于手工设计的特征或复杂的网络结构,存在泛化能力不足、对视频时空信息利用不充分等问题。近年来,随着深度学习和生成模型的快速发展,基于图像生成的动作检测方法逐渐崭露头角,为解决上述问题提供了新的思路。
本课题旨在探索一种基于图像生成的动作检测新方法,将动作检测任务转化为图像生成问题,并利用图像扩散模型生成包含动作信息的图像。通过将动作检测输出(起始点、结束点和动作类别预测)表示为图像,即“AD图像”,并利用图像扩散模型生成这些AD图像,有望实现更准确、高效的动作检测。
【推荐发表期刊】
【方向参考】
-
动作检测的图像生成表示:研究如何将动作检测的输出有效地表示为图像,设计合适的AD图像编码方式,确保图像能够准确传达动作信息。
-
基于图像扩散模型的动作检测:探索利用图像扩散模型生成AD图像的方法,设计合适的网络结构和训练策略,确保生成的AD图像质量高、信息丰富。
-
离散动作检测扩散过程:针对动作检测任务的离散特性,设计专门的扩散过程,确保AD图像显示离散概率分布,提高动作检测的准确性。
-
时空关系建模:研究如何有效建模AD图像中的类内和时间关系,设计合适的网络模块或注意力机制,捕捉动作在时间和类别维度上的关联性。