大型语言模型(LLMs)的性能差异和社会偏见常常与历史性歧视一致。交叉性理论指出,那些处于多个边缘化群体交集的个体往往会受到额外的歧视。研究表明,大型模型在训练过程中可能受到数据偏见的影响,导致在性能和社会偏见方面存在危害。例如,在名字偏见测试中,模型通常会预测与他们所知名人物相关的名称,对于不太知名的人,效果会减弱。在刻板印象测试中,所有模型都显示出对刻板印象数据的系统偏好,较大的模型往往具有较高的刻板印象得分。
公平性指标可以将性能差异转化为单一测量结果,但许多公平性指标无法同时被最小化,并且无法满足利益相关者对算法的期望。衡量偏见的设计决策可能会显著改变结果。此外,大型语言模型可能通过多种方式造成伤害,包括性能差异和社会偏见。理解这些伤害对社会造成的影响需要考虑涉及的社会群体及其状况,例如历史上的边缘化和权力的缺乏。
现有的方法往往无法有效地减少或解决这些伤害,技术缓解措施的效果也不佳。因此,需要采取更广泛的社会技术方法来缓解这些伤害,这个生态系统是大型语言模型的情境环境。