高质量的数据对于生物多样性保护的研究和管理必不可少。随着越来越多不同来源的生物多样性数据的开放,质量较低的数据会对研究结果产生影响,因此使用之前必须先识别并消除生物多样性数据中存在的错误。Jin等人在Global Ecology and Conservation上发表了题为BDcleaner: A workflow for cleaning taxonomic and geographic errors in occurrence data achieved in biodiversity database的文章,以全球木本植物发生数据为例,开发了一套自动化、可重复、透明的清理物种发生数据中分类和地理信息错误的工作流程。
生物多样性数据清洗的重要性
生物多样性对人类社会的可持续发展至关重要,在多时空尺度下明晰生物多样性的格局、影响和驱动因素都依赖于生物多样性数据。高质量的生物多样性数据为科学研究、政策制定和日常管理提供了基础。
得益于近20年来数字化的快速发展,数十亿计的生物多样性数据向公众开放共享,以此为基础也构建了很多涵盖大量数据的生物多样性数据库。目前的很多生物多样性数据库都汇集了不同来源、不同质量的数据,数据中可能存在的错误对使用这些数据造成了一定的困难。
物种发生数据一般围绕三个维度进行记录:分类学名、空间分布、记录时间。每一维度上的不确定性和偏差都会影响数据的使用。在