LAVIS：一站式语言视觉智能库

最新推荐文章于 2024-09-13 21:53:14 发布

柳诚跃Lorena

最新推荐文章于 2024-09-13 21:53:14 发布

阅读量213

点赞数 3

本文链接：https://blog.csdn.net/gitblog_09572/article/details/142224381

版权

LAVIS 是一个用于语言和视觉研究及应用的 Python 深度学习库。该项目旨在为工程师和研究人员提供一个一站式的解决方案，以便快速开发适用于特定多模态场景的模型，并在标准和自定义数据集上进行基准测试。

LAVIS 的核心功能包括：

LAVIS 最近更新的功能包括：

2023年11月：发布了 X-InstructBLIP 论文的实现，这是一个简单而有效的跨模态框架，基于冻结的大型语言模型，允许集成各种模态（图像、视频、音频、3D），而无需广泛的模态特定定制。
2023年7月：发布了 BLIP-Diffusion 论文的实现，这是一个文本到图像生成模型，训练速度比 DreamBooth 快 20 倍，还支持零样本主题驱动生成和编辑。
2023年5月：发布了 InstructBLIP 论文的实现，这是一个使用 BLIP-2 模型的新视觉语言指令调优框架，在广泛的视觉语言任务上实现了最先进的零样本泛化性能。
2023年1月：发布了 BLIP-2 论文的实现，这是一个通用且高效的预训练策略，轻松利用预训练视觉模型和大型语言模型（LLMs）进行视觉语言预训练。BLIP-2 在零样本 VQAv2 上击败了 Flamingo（65.0 vs 56.3），并在零样本描述生成上建立了新的最先进水平（NoCaps 121.6 CIDEr 分数 vs 之前的最佳 113.2）。

通过这些更新，LAVIS 不断增强其作为语言视觉智能研究的一站式解决方案的能力。