CV注意力机制
文章平均质量分 85
小杜今天学AI了吗
努力日更的小蜜蜂博主,喜欢健身,喜欢学习
展开
-
论文研读 An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
Vision Transformer(ViT)是一种将Transformer架构直接应用于图像分类任务的模型。它源于自然语言处理(NLP)领域中的Transformer模型,该模型以其自注意力机制而闻名,能够捕捉序列中的长距离依赖关系原创 2024-05-11 21:02:05 · 439 阅读 · 0 评论 -
论文分享[cvpr2018]Non-local Neural Networks非局部神经网络
将非局部操作作为通用构建块家族,用于捕获长距离依赖关系。受计算机视觉中经典的非局部均值方法的启发,我们的非局部操作将位置响应的计算为所有位置的特征的加权和。这个构建块可以插入到许多计算机视觉架构中。在视频分类任务中,即使没有任何花里胡哨(without any bells and whistles),我们的非局部模型也可以在 Kinetics 和 Charades 数据集上竞争或优于当前的竞赛获胜者。原创 2024-05-08 21:41:08 · 734 阅读 · 0 评论