基于可变形卷积的大规模视觉基础模型的探索

最新推荐文章于 2024-07-25 18:55:58 发布

electrical1024

最新推荐文章于 2024-07-25 18:55:58 发布

阅读量478

点赞数 6

文章标签： python 视觉大模型

本文链接：https://blog.csdn.net/fallingleafgrief/article/details/137695707

版权

基于可变形卷积的大规模视觉基础模型的探索

文章目录

基于可变形卷积的大规模视觉基础模型的探索

一、简介

本模型包括大规模视觉基础模型"InternImage"，预训练算法"M3I-Pretraining"，通用解码器"Uni-Perceiver"系列，以及自动驾驶感知通用编码器"BEVFormer"系列。

二、亮点

1、高达30亿参数的最强视觉通用主干模型
2、图像分类标杆数据集ImageNet 90.1% Top1准确率，开源模型中准确度最高
3、物体检测标杆数据集COCO 65.5 mAP，唯一超过65 mAP的模型

三、项目功能

1、各类下游任务
2、支持[CVPR 2023 Workshop on End-to-End Autonomous Driving]
3、支持Segment Anything
4、支持提取模型中间层特征，详见
5、支持基于[DeepSpeed]的低成本训练
6、DCNv3算子预编译.whl包
7、 InternImage-H(1B)/G(3B)
8、支持分类/检测/分割TensorRT推理
9、 InternImage 系列分类代码
10、 InternImage-T/S/B/L/XL ImageNet-1K 预训练模型
11、 InternImage-L/XL ImageNet-22K 预训练模型
12、 InternImage-T/S/B/L/XL 检测和实例分割模型
13、 InternImage-T/S/B/L/XL 语义分割模型

四、模型的应用

1、图像模态任务性能

分类任务

<table border="1" width="90%">
	<tr align="center">
        <th colspan="1"> 图像分类</th><th colspan="2"> 场景分类 </th><th colspan="1">长尾分类</th>
    </tr>
    <tr align="center">
        <th>ImageNet</th><th>Places365</th><th>Places 205</th><th>iNaturalist 2018</th>
    </tr>
    <tr align="center">
        <th>90.1</th><th>61.2</th><th>71.7</th><th>92.3</th>
    </tr>
</table>
<br>

检测任务

<table border="1" width="90%">
	<tr align="center">
        <th colspan="4"> 常规物体检测</th><th colspan="2">长尾物体检测 </th><th colspan="2">自动驾驶物体检测</th><th colspan="1">密集物体检测</th>
    </tr>
    <tr align="center">
        <th>COCO</th><th>VOC 2007</th><th>VOC 2012</th><th>OpenImage</th><th>LVIS minival</th><th>LVIS val</th><th>BDD100K</th><th>nuScenes</th><th>CrowdHuman</th>
    </tr>
    <tr align="center">
        <th>65.5</th><th>94.0</th><th>97.2</th><th>74.1</th><th>65.8</th><th>63.2</th><th>38.8</th><th>64.8</th><th>97.2</th>
    </tr>
</table>
<br>

分割任务

<table border="1" width="90%">
	<tr align="center">
        <th colspan="3">语义分割</th><th colspan="1">街景分割</th><th colspan="1">RGBD分割</th>
    </tr>
    <tr align="center">
        <th>ADE20K</th><th>COCO Stuff-10K</th><th>Pascal Context</th><th>CityScapes</th><th>NYU Depth V2</th>
    </tr>
    <tr align="center">
        <th>62.9</th><th>59.6</th><th>70.3</th><th>86.1</th><th>69.7</th>
    </tr>
</table>
<br>

</div>

2. 图文跨模态任务性能

**图文多模态任务**

<table border="1" width="90%">
	<tr align="center">
        <th colspan="1">图像描述</th><th colspan="2">微调图文检索</th><th colspan="1">零样本图文检索</th>
    </tr>
    <tr align="center">
        <th>COCO Caption</th><th>COCO Caption</th><th>Flickr30k</th><th>Flickr30k</th>
    </tr>
    <tr align="center">
        <th>148.2</th><th>76.4</th><th>94.8</th><th>89.1</th>
    </tr>
</table>
<br>

</div>

五、源程序下载

源程序下载地址：基于可变形卷积的大规模视觉基础模型的探索

electrical1024

关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
2
评论
基于可变形卷积的大规模视觉基础模型的探索

本模型包括大规模视觉基础模型"InternImage"，预训练算法"M3I-Pretraining"，通用解码器"Uni-Perceiver"系列，以及自动驾驶感知通用编码器"BEVFormer"系列。
复制链接

扫一扫