CVPR 2024最佳论文分享:《BIOCLIP:生命之树的基础视觉模型》

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

本文详细介绍了CVPR 2024最佳论文《BIOCLIP: A Vision Foundation Model for the Tree of Life》。该论文由俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校和伦斯勒理工学院联合发表。论文提出了一个名为TREEOFLIFE-10M的大规模、多样化的生物学图像数据集,并且基于该数据集捕获的生物学独特属性,开发了基于生命之树的基础视觉模型——BIOCLIP。本文由许东舟撰写,审校为黄星宇和邱雪。

1.研究背景

1)自然界图像的丰富性:

随着各种类型的相机(如无人机、个人手机等)的普及,自然界中的图像数据变得越来越丰富,为科学研究和自然保护提供了大量的生物信息。

2)计算机视觉的应用:

为了适应特定的分类任务,生物学家需要手动标注大量数据。并且,还要选择并训练适合这些任务的模型,这一过程既耗时又复杂。

尽管现有技术广泛应用于特定任务,但它们通常缺乏适应新问题和数据集的灵活性。

3)对泛化能力的需求:

生物多样性的研究面临不断变化的需求,需要视觉模型能广泛适应各种生物学问题。

需要开发能够处理广泛生物图像类型并适应数据集和问题扩展的模型。

2.论文贡献

2.1.TREEOFLIFE-10M

TREEOFLIFE-10M是一个庞大的生物学图像数据集,包含超过1000万张图像,涵盖生命之树中的454,000个分类单元,训练数据源如表1所示。这个数据集不仅整合了如iNat21和BIOSCAN-1M等现有的高质量图像数据集,提供了广泛的生物样本,还包括生命百科中新策划的图像,进一步显著地增加了数据的多样性。此外,TREEOFLIFE-10M种每张图像都附带详细的分类层级标签,从最细致的级别到高级分类等级,因此非常适用于复杂的生物分类研究。

表 1 TREEOFLIFE - 10M使用的训练数据源

图1展示了TREEOFLIFE-10M数据集中108个门的分类树图,它通过不同颜色和嵌套的框架来表示不同的生物分类级别。图1的中每种颜色代表着一个生物门,其中三个最大的颜色块分别代表节肢动物(Arthropoda)、被子植物(Tracheophyta)和脊椎动物(Chordata)。在每个大的颜色块内部又包含着多个较小框架,它们表示更具体的分类级别,比如纲、目和科。

图 1 TREEOFLIFE - 10M中的108个门的树图

在节肢动物门中,可以看到不同的纲,例如图中的昆虫纲(Insecta)和蜘蛛纲(Arachnida),其中昆虫纲又可以进一步为如鞘翅目(Coleoptera)和鳞翅目(Lepidoptera)等多个目。

2.2. BIOCLIP

BIOCLIP是一个基于生命之树设计的视觉基础模型,专为处理和理解大规模的生物学图像数据而构建。该模型通过使用TREEOFLIFE-10M数据集进行训练,学习如何识别并分类广泛的生物类别。

不同于常规的视觉模型(如ResNet50和Swin Transformer)使用的直接监督学习方法,BIOCLIP采用了更复杂的训练策略,它利用分类标签的丰富结构,并通过理解分类单元间的相互关系来增强对未见类别的泛化能力。此外,BIOCLIP在训练中包含丰富的分类层级信息,从而能在未见分类单元的情况下进行有效预测,实现零样本学习,这在传统的监督学习模型中通常是个不小的挑战。

图2展示了BIOCLIP使用自回归文本编码器和对比学习目标来处理和理解生物图像数据的层次结构。其中:

(a)分类标签(Taxonomic Labels)展示了两种不同的植物——Onoclea sensibilis和Onoclea hintonii的分类学标签。它们在分类上从界到属完全相同,但在物种级别上有所不同。

(b)自回归文本表示(Autoregressive Representations)描述了自回归文本编码器如何将分类学信息编码成连续的文本表示。这种表示方式可以捕捉到分类学层级结构,有助于实现不同生物类别的图像进行精准的匹配和分类。

(c)对比学习目标(Contrastive Objective)显示了如何将图像特征与对应的分类学文本标签进行匹配。通过对比学习,模型学习将图像特征与正确的文本标签对齐,以此来提高分类准确性。

(d)、(e) 图像表示(Image Representations)提供了这两种植物的实际图像,有助于模型学习如何将视觉信息与分类标签关联起来。

图 2  BIOCLIP如何处理和理解生物图像数据的层次结构

BIOCLIP在训练中会使用多样化的文本类型,如表2所示。这样做可以为模型的推理提供更强的灵活性,尤其是在面对不同的标注或文本输入时。并且,通过混合不同的文本类型,模型在保持分类学名称的泛化优势同时,也能在测试中更灵活地使用其他名称。

表 2 以黑尾鹊为例,BIOCLIP训练中使用的不同文本类型,包括常见名称(Common)、科学名称(Scientific)、分类学名称(Taxonomic)、科学名称 + 常见名称(Scientific + Common)、分类学名称 + 常见名称(Taxonomic + Common)

以上特点使得BIOCLIP可以在处理生物多样性数据时表现出优越的性能,特别是对于精确识别和分类生物多样性中的复杂任务。

3.实验评估

研究团队在10个不同的分类任务上对模型进行了评估,使用了浮游生物、昆虫、昆虫2、PlantNet、真菌、PlantVillage、药用植物叶和PlantDoc数据集。这些分类任务覆盖了生命之树中的动物、植物、真菌和原生生物,并具有多样化的图像分布(照片、显微镜图像、绘图和博物馆标本)。表3总结了这些数据集;它们包括从完整的分类学名称到仅科学名称或常见名称的各种标签类型。评估结果由表4、表5、图3~6所示。

表 3 用于评估的数据集。所有任务均采用Top - 1准确率进行分类评价

表 4 零样本、一样本和五样本分类的Top-1准确率对比不同模型。加粗显示最佳准确率。所有模型均使用相同的ViT-B/16架构。“仅iNat21”遵循与BIOCLIP相同的程序,但使用iNat21而非TREEOFLIFE-10M。Δ表示与CLIP的平均准确率之差。Supervised-IN21K和 DINO是仅限视觉的模型,不能进行零样本分类。

表 5  零样本准确率用于评估训练中未见过的物种(RARE SPECIES任务)。不同的行和列分别代表训练和测试时使用的不同文本类型。蓝色表示最高准确率,橙色表示次高准确率。使用分类学名称相比科学名称总能提高准确率(从22.3提升至26.6,从28.0提升至30.4)。表格的最后几行使用完整的iNat21数据集和TREEOFLIFE-10M作为参考。


图 3示例预测中展示了BIOCLIP和CLIP在Birds 525、Plankton、Insects任务上的表现。正确的基准标签用绿色表示;不正确的预测用红色表示。左侧显示BIOCLIP正确的预测结果。中间和右侧则展示了CLIP错误标记的图像,而BIOCLIP能够正确识别这些图像。这种显示方式清晰地突出了BIOCLIP在多种生物分类任务上相对于CLIP的优越性能。

图 4示例预测中展示了BIOCLIP和CLIP在Insects2、PlantNet和Fungi任务上的表现。正确的基准标签用绿色表示;不正确的预测用红色表示。左侧显示BIOCLIP正确的预测结果。中间和右侧则展示了CLIP错误标记的图像,而BIOCLIP能够正确识别这些图像。这种显示方式清晰地突出了BIOCLIP在多种生物分类任务上相对于CLIP的优越性能。


图 5示例预测展示了BIOCLIP和CLIP在PlantVillage、Medicinal Leaf、PlantDoc以及RARE SPECIES数据集上的表现。正确的基准标签用绿色显示;错误的预测用红色表示。左侧展示的是BIOCLIP正确预测的结果。中间和右侧则展示了CLIP错误标记的图像,而BIOCLIP则正确标记。这种对比突出了BIOCLIP在处理这些特定任务上相对于CLIP的优越性。


图 6 t-SNE技术用于可视化图像特征,特征按分类学标签进行着色。BIOCLIP(标记为B)的可视化在第一行和第三行展示,OpenAI的CLIP(标记为O)在第二行和第四行展示。BIOCLIP的特征更好地保留了层次结构:虽然BIOCLIP和CLIP都能清晰地区分动物界(Animalia Kingdom)中的不同门(top left),但只有BIOCLIP成功地区分了昆虫纲(Insecta Class)中的不同目(top right)和鳞翅目(Lepidoptera Order)中的不同科(bottom left)。

4.总结

1)提出了 TREEOFLIFE-10M 和 BIOCLIP:

·提出了名为TREEOFLIFE-10M的大规模、多样化的生物学图像数据集,以及基于该数据集的基础视觉模型BIOCLIP。

2)BIOCLIP 的评估和性能:

·通过广泛评估,证实了BIOCLIP在零样本和少样本设置下,是一个强大的细粒度生物分类器。

·BIOCLIP在处理未见种类的细粒度分类任务上显示出强大的泛化能力。

3)对泛化能力的需求:

·研究支持了使用完整的分类学名称进行训练,比其他类型的标题能够带来更强泛化的假设。

·BIOCLIP模型的可视化表明,其内嵌的图像特征更好地匹配了生物的分类层级结构。

4)未来的研究方向:

·将进一步扩大数据规模,例如,计划纳入超过1亿张来自iNaturalist的研究级图像。

·收集更丰富的物种外观描述文本,使BIOCLIP能够抽取更细致的特征级表征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值