LAVIS:一站式语言视觉智能库
项目基础介绍和主要编程语言
LAVIS 是一个用于语言和视觉研究及应用的 Python 深度学习库。该项目旨在为工程师和研究人员提供一个一站式的解决方案,以便快速开发适用于特定多模态场景的模型,并在标准和自定义数据集上进行基准测试。
项目核心功能
LAVIS 的核心功能包括:
- 统一和模块化接口:便于利用和重用现有模块(数据集、模型、预处理器),并添加新模块。
- 易于使用的推理和特征提取:提供预训练模型,使您能够在自己的数据上利用最先进的多模态理解和生成能力。
- 可复现的模型库和训练配方:轻松在现有和新任务上复制和扩展最先进的模型。
- 数据集库和自动下载工具:提供自动下载脚本,帮助准备各种语言视觉数据集及其注释。
项目最近更新的功能
LAVIS 最近更新的功能包括:
- 2023年11月:发布了 X-InstructBLIP 论文的实现,这是一个简单而有效的跨模态框架,基于冻结的大型语言模型,允许集成各种模态(图像、视频、音频、3D),而无需广泛的模态特定定制。
- 2023年7月:发布了 BLIP-Diffusion 论文的实现,这是一个文本到图像生成模型,训练速度比 DreamBooth 快 20 倍,还支持零样本主题驱动生成和编辑。
- 2023年5月:发布了 InstructBLIP 论文的实现,这是一个使用 BLIP-2 模型的新视觉语言指令调优框架,在广泛的视觉语言任务上实现了最先进的零样本泛化性能。
- 2023年1月:发布了 BLIP-2 论文的实现,这是一个通用且高效的预训练策略,轻松利用预训练视觉模型和大型语言模型(LLMs)进行视觉语言预训练。BLIP-2 在零样本 VQAv2 上击败了 Flamingo(65.0 vs 56.3),并在零样本描述生成上建立了新的最先进水平(NoCaps 121.6 CIDEr 分数 vs 之前的最佳 113.2)。
通过这些更新,LAVIS 不断增强其作为语言视觉智能研究的一站式解决方案的能力。