【ICML2023】Hiera: 一个无需花哨附加功能的分层视觉Transformer

文章介绍了Hiera,这是一种通过预训练简化后的分层视觉Transformer,它在保持甚至提高精确度的同时,减少了推断和训练过程中的复杂性。通过使用MAE(MaskedAutoencoder)预训练方法,Hiera移除了多余的组件,且在图像和视频识别任务中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3b4fdad9b8f2f0851335d46723c15f89.png

来源:专知
本文为论文介绍,建议阅读5分钟我们创建了Hiera,一种极其简单的分层视觉Transformer,比以前的模型更精确。

a8965dedb3537d6dcb8d5fcb7b0b756e.png

现代的分层视觉Transformer已经添加了几个专门针对视觉的组件,以追求监督分类的性能。虽然这些组件带来了有效的精确度和吸引人的FLOP计数,但增加的复杂性实际上使这些Transformer比其原生ViT(Vision Transformer)对应物更慢。在本文中,我们认为这种额外的复杂性是不必要的。通过使用强大的视觉前提任务(MAE)进行预训练,我们可以从最先进的多阶段视觉Transformer中去除所有的附加功能,而不会损失精确度。在此过程中,我们创建了Hiera,一种极其简单的分层视觉Transformer,比以前的模型更精确,同时在推断和训练过程中也更快。我们在图像和视频识别的各种任务上评估了Hiera。我们的代码和模型可以在https://github.com/facebookresearch/hiera 上找到。

599dbed7bd7e66a5503ae3f4ee0bf07c.png

eaf5d637d8f7bc283e2303200b9c4c7e.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值