PyTorch Image Models 项目推荐
1. 项目基础介绍和主要编程语言
PyTorch Image Models(简称 timm
)是一个开源的图像模型库,主要使用 Python 编程语言开发。该项目由 Hugging Face 维护,旨在提供一个包含多种图像编码器和骨干网络的集合,支持训练、评估、推理和模型导出等功能。timm
库广泛应用于计算机视觉领域,特别是在深度学习模型的开发和研究中。
2. 项目的核心功能
timm
项目的核心功能包括:
- 模型集合:提供了大量的图像编码器和骨干网络,如 ResNet、ResNeXT、EfficientNet、Vision Transformer (ViT)、MobileNetV4、MobileNet-V3 & V2、RegNet、DPN、CSPNet、Swin Transformer、MaxViT、CoAtNet、ConvNeXt 等。
- 训练和评估脚本:支持多种模型的训练和评估,提供了丰富的脚本和工具,帮助开发者快速上手。
- 推理和导出:支持模型的推理和导出,方便将训练好的模型部署到生产环境中。
- 数据加载和增强:提供了多种数据加载器和数据增强方法,帮助开发者高效地处理图像数据。
- 优化器和调度器:集成了多种优化器和学习率调度器,支持自定义训练流程。
3. 项目最近更新的功能
timm
项目最近更新的功能包括:
- 2024年8月21日:更新了 SBB ViT 模型,这些模型在 ImageNet-12k 上训练并在 ImageNet-1k 上微调,性能优于许多更大、更慢的模型。
- 2024年8月8日:添加了 RDNet(“DenseNets Reloaded”)模型,感谢 Donghyun Kim 的贡献。
- 2024年7月28日:添加了 mobilenet_edgetpu_v2_m 权重,基于 ra4 mnv4-small 的训练配方,在 224 和 256 分辨率下分别达到了 80.1% 和 80.7% 的 top-1 准确率。
- 2024年6月24日:添加了更多 MobileNetV4 混合权重,使用了不同的 MQA 权重初始化方案。
- 2024年6月12日:添加了 MobileNetV4 模型和初始的 timm 训练权重。
- 2024年10月20日:支持 SigLIP 图像塔权重在 vision_transformer.py 中的使用,具有良好的微调和下游特征使用潜力。
这些更新进一步丰富了 timm
的功能,使其在计算机视觉领域的应用更加广泛和灵活。