文章主要内容
- 背景与问题:传统机器学习公平性工具包不适用于大语言模型(LLMs)的生成性和上下文依赖特性,现有评估工具多在模型层面基于静态基准数据集评估LLMs,未考虑提示特定风险和实际任务,无法代表系统真实性能。
- LangFair介绍:开源Python包,采用“自带提示”(BYOP)方法,根据用户提供的提示计算指标,评估LLMs用例的偏差和公平性风险。
- 功能模块
- 评估数据集生成:
ResponseGenerator
类简化评估数据集生成;CounterfactualGenerator
类用于检查通过无意识实现公平(FTU),构建反事实输入对并生成相应响应。 - 偏差和公平性评估:根据评估风险(毒性、刻板印象、反事实不公平和分配性伤害)和用例任务(文本生成、分类和推荐)对评估指标进行分类,不同类提供相应指标计算方法。
- 半自动化评估:
AutoEval
类为文本生成用例提供多步骤综合公平性评估,包括指标选择、数据集生成和
- 评估数据集生成: