#今日论文推荐# 如何高效、精准地进行图片搜索？看看轻量化视觉预训练模型

或是难以在海量化的图像中准确地找到所需图像，或是在基于文本的检索中得到差强人意的结果。对于这个难题，微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究，并提出了一系列视觉预训练模型的设计和压缩方法，实现了视觉 Transformer 的轻量化部署需求。

目前该方法和模型已成功应用于微软必应搜索引擎，实现了百亿图片的精准、快速推理和检索。本文将深入讲解轻量化视觉预训练模型的发展、关键技术、应用和潜力，以及未来的机遇和挑战，希望大家可以更好地了解轻量化视觉预训练领域，共同推进相关技术的发展。

近来，基于 Transformer 的视觉预训练模型在诸多计算机视觉任务上都取得了优越性能，受到了广泛关注。然而，视觉Transformer 预训练模型通常参数量大、复杂度高，制约了其在实际应用中的部署和使用，尤其是在资源受限的设备中或者对实时性要求很高的场景中。因此，视觉预训练大模型的“轻量化”研究成为了学术界和工业界关注的新热点。
对此，微软亚洲研究院和微软云计算与人工智能事业部的研究员们在视觉大模型的结构设计和训练推断上进行了深入探索，同时还对大模型的轻量化、实时性以及云端部署也做了创新应用。本文将从轻量化视觉预训练模型的发展谈起，探讨模型轻量化研究中的关键技术，以及轻量化视觉 Transformer 模型在实际产品中的应用和潜力，最后展望轻量化视觉模型的未来发展机遇和挑战。

论文题目：MiniViT: Compressing Vision Transformers with Weight Multiplexing
详细解读：https://www.aminer.cn/research_report/62e748817cb68b460ff8ddd7https://www.aminer.cn/research_report/62e748817cb68b460ff8ddd7
AMiner链接：https://www.aminer.cn/?f=cs