2025AAAI-DivShift: Exploring Domain-Specific Distribution Shift in Large-Scale, Volunteer-Collected

文章主要内容和创新点总结

一、主要内容

  1. 研究背景:iNaturalist等公民科学项目提供的大规模志愿者收集生物多样性数据集,推动了机器学习在物种细粒度视觉分类等生物多样性监测任务中的性能提升,但这类数据存在地理、时间、分类学、观察者和社会政治等多种偏差,其对物种识别模型性能的影响尚不明确。
  2. 核心框架与数据集
    • 提出DivShift框架,用于量化特定领域分布偏移对机器学习模型性能的影响,通过测量数据集不同分区的域内与域外模型性能差异,并与标签分布偏移进行对比,评估偏差的影响。
    • 构建DivShift-NAWC数据集,包含北美西海岸近750万张iNaturalist图像,涵盖7500多种植物,按五种专家验证的偏差类型划分,为偏差影响评估提供受控案例。
  3. 研究方法:使用ResNet-18、ResNet-50和ViT等模型,基于多种精度指标(如单图像精度、物种精度、稀有度加权精度等),对比不同偏差分区下的物种识别性能,分析数据量、偏差类型与模型泛化能力的关系。
  4. 关键发现
    • 所有偏差分区均为弱偏差,模型性能变化小于标签分布偏移的预期影响。
    • 数据量对模型性能有正向影响,但提升幅度因偏差类型而异;例如,来自人类活动频繁区域、非挑战期、活跃观察者的数据集训练出的模型泛化能力更强。
    • 社会政治偏差导致跨区域模型性能下降最显著,但
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值