题目:Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition
数据集人口统计偏见的指标:面部表情识别案例研究
作者:Iris Dominguez-Catena; Daniel Paternain; Mikel Galar
摘要
源数据集中的人口统计偏见已被证明是机器学习模型预测不公平和歧视的原因之一。最突出的偏见类型之一是数据集中人口统计组代表性的不平衡。在本文中,我们通过回顾现有的指标来研究这些偏见的衡量标准,包括可以从其他学科借鉴的指标。我们开发了这些指标的分类法,为选择合适的指标提供了实用指南。为了说明我们框架的实用性,并进一步理解这些指标的实际特征,我们对20个用于面部情感识别(FER)的数据集进行了案例研究,分析了其中存在的偏见。我们的实验结果表明,许多指标是冗余的,减少的指标子集可能足以衡量人口统计偏见的程度。本文为人工智能及相关领域的研究人员提供了宝贵的见解,以减少数据集偏见并提高人工智能模型的公平性和准确性。