文章主要内容和创新点总结
一、主要内容
- 研究背景:iNaturalist等公民科学项目提供的大规模志愿者收集生物多样性数据集,推动了机器学习在物种细粒度视觉分类等生物多样性监测任务中的性能提升,但这类数据存在地理、时间、分类学、观察者和社会政治等多种偏差,其对物种识别模型性能的影响尚不明确。
- 核心框架与数据集:
- 提出DivShift框架,用于量化特定领域分布偏移对机器学习模型性能的影响,通过测量数据集不同分区的域内与域外模型性能差异,并与标签分布偏移进行对比,评估偏差的影响。
- 构建DivShift-NAWC数据集,包含北美西海岸近750万张iNaturalist图像,涵盖7500多种植物,按五种专家验证的偏差类型划分,为偏差影响评估提供受控案例。
- 研究方法:使用ResNet-18、ResNet-50和ViT等模型,基于多种精度指标(如单图像精度、物种精度、稀有度加权精度等),对比不同偏差分区下的物种识别性能,分析数据量、偏差类型与模型泛化能力的关系。
- 关键发现:
- 所有偏差分区均为弱偏差,模型性能变化小于标签分布偏移的预期影响。
- 数据量对模型性能有正向影响,但提升幅度因偏差类型而异;例如,来自人类活动频繁区域、非挑战期、活跃观察者的数据集训练出的模型泛化能力更强。
- 社会政治偏差导致跨区域模型性能下降最显著,但

订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



