论文阅读
文章平均质量分 96
ghost_him
依然在c++的道路上摸爬滚打。。。
展开
-
论文阅读:VideoMamba: State Space Model for Efficient Video Understanding
为了解决视频理解中的局部冗余与全局依赖性的双重挑战。作者将 Mamba 模型应用于视频领域。所提出的 VideoMamba 克服了现有的3D卷积神经网络与视频 Transformer 的局限性。在视觉领域有可扩展性,无需大规模数据集来预训练。对于短期动作也有敏感性,即使是细微的动作差异也可以识别到在长期视频理解方面有优越性,相比基于特征的模式,有显著的进步。与其他的模态有兼容性,在多模态环境中表现出色。原创 2024-08-30 11:30:44 · 349 阅读 · 1 评论 -
论文阅读:SimVP: Simpler yet Better Video Prediction
作者认为,现有的CNN,RNN,Transformer 之类的视频预测领域的模型都过于复杂了,作者想要找到一个简单的方式,同时可以达到与之相当的效果。作者提出了 SimVP,这是一个简单的视频预测模型,完全基于 CNN 构建,通过均方误差(MSE)损失函数以端到端的方式进行训练。在不引入任何额外技巧与复杂策略的情况下,就可以实现最先进的性能。原创 2024-08-28 15:08:53 · 1008 阅读 · 0 评论