可解释模型更有可能公平的三个原因
可解释性和公平性似乎是相辅相成的。可解释性涉及理解模型如何进行预测。公平性涉及理解预测是否偏向某些群体。负责任的人工智能框架和机器学习会议始终将这两个特征一起提及。然而,可解释性并不一定意味着公平。
话虽如此,可解释的模型仍然更有可能是公平的。这种关联有 3 个主要原因。对于可解释的模型,更容易识别不公平的原因。在可解释的模型中纠正不公平也更容易。一些方法,例如证明解释,甚至依赖于可解释性。最后,这两个特征都与建立对 AI 系统的信任的目标相关。我们将深入讨论这些原因。
使用不可知论方法测量偏见
在深入探讨这些问题之前,让我们先讨论一下如何分析公平性。这也有助于我们理解为什么这不是可解释性和公平性相关的原因之一。通常,公平性的衡量标准与模型无关。这意味着它们可以用于任何模型。这包括线性回归和决策树等固有可解释的模型。它还包括随机森林甚至神经网络等不太可解释的模型。
准确度是衡量公平性的一个简单例子。具体来说,我们将比较模型对不同人群的准确度。这里的人群由种族或性别等敏感特征定义。如果某个人群的准确度明显较低,则表明该模型对该人群不公平。
要计算公平性指标,我们只需要模型的预测和实际目标变量。我们不需要研究模型本身的内部工作原理。这意味着,对于可解释的模型和不太可解释的模型,计算指标同样容易。换句话说,可解释性并不能让我们更容易理解一个模型是否不公平。问题是,这样的指标并不能告诉我们为什么一个模型不公平。
原因一:更容易识别不公平的原因
[造成不公平的原因](不公平的预测:机器学习中的 5 种常见偏见来源)各有不同其中包括用于训练模型的数据中的偏见。具体来说,历史偏见、代理变量和不平衡的数据集可能会导致不公平的预测。我们对算法的选择以及用户与模型的交互方式也会带来偏见。对于可解释的模型,识别这些来源更容易。
这是因为,对于可解释的模型,更容易理解模型的工作原理。这意味着我们清楚地了解哪些特征是重要的。我们还了解这些特征与目标变量之间的关系。通常,与神经网络等模型相比,算法和成本函数也简单得多。所有这些都让我们更