具有偏见意识的代理：增强人工智能驱动的知识检索的公平性-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146637796

在过去的几年中，获取可访问信息的技术发展速度超过了互联网创建以来几十年的发展。像Google这样的搜索引擎一直是查找相关信息的主要方式。它们一直依赖用户的能力，在指尖触及的数十亿链接和来源中找到最佳信息。大型语言模型（LLMs）的出现彻底改变了信息检索领域。这些LLMs不仅擅长检索相关知识，还能够有效地对其进行总结，使信息更易于访问和消费。此外，AI代理的兴起为信息检索引入了另一个方面——动态信息检索，这使得实时数据（如天气预报和金融数据）与知识库的整合成为可能，从而生成上下文感知的知识。然而，尽管取得了这些进展，代理仍然容易受到偏见和公平性问题的影响——这些问题深深植根于LLMs的知识库和训练中。本研究介绍了一种新的偏见意识知识检索方法，通过利用代理框架和创新使用偏见检测器作为工具来识别和突出检索内容中的固有偏见。通过赋予用户透明度和意识，这种方法旨在促进更公平的信息系统，并推动负责任的人工智能的发展。

互联网消除了信息访问的物理障碍，它在几秒钟内将无限的知识送到任何人的指尖。面对如此无尽的信息来源，高效的检索是必需的。信息检索（IR）可以定义为基于用户的查询，从大量数据集合中获取相关信息的过程。它必须准确、高效，并且适应不断发展的技术和用户行为，这是当今主要IR应用在搜索引擎中的关键特征 (Singhal 2001) 。IR过程由两个步骤定义：检索与用户查询相关的文档，并根据相关性得分对文档进行排名，以首先提供最相关的文档 (Hambarde 和 Proença 2023) 。与此目标一致，Brin 和 Page 引入了PageRank算法，该算法通过页面链接和参考的数量对页面进行排名，从而根据这些标准分配适当的权重有效排名 (Brin 和 Page 1998) 。该算法在检索相关信息方面的效率、可靠性和速度仍然是Google搜索引擎的基础。在此基础上，人工智能的进步为超越关键词匹配的IR系统铺平了道路，实现了理解上下文和意图的范式转变。最近，大型语言模型（LLMs）颠覆了信息检索领域。例如ChatGPT等LLMs擅长检索和总结知识，以提供相关、准确和上下文敏感的响应。这些进步不仅改变了通信和民主化知识，还提高了信息检索效率，重塑了我们在现实世界应用中交互和访问信息的方式 (Haque 和 Li 2024) (Zhu 等人 2024) 。

尽管LLMs在IR领域取得了显著进展，但它们存在诸如幻觉和过时信息等问题。由于LLMs是基于静态数据训练的，因此在需要回答复杂现实世界问题的情况下，新信息不断涌现导致数据陈旧和不完整，从而产生用看似合理但事实错误的答案填补空白的幻觉。Lewis等人引入了检索增强生成（RAG）以应对这些挑战。RAG系统主要由两个组件组成——检索器和生成器。检索模块从向量存储中提取相关知识，生成器基于参数知识和非参数知识将其注入到上下文窗口中，生成与上下文相关响应 (Lewis 等人 2020) 。RAG应用被引入以通过集成外部最新来源来增强传统LLMs的响应能力，提高其处理复杂、近期问题的能力 (Chen 等人 2024) 。在此基础上，AI代理通过动态外部工具调用、循环规划过程和任务特定内存允许复杂的、动态的和目标导向的任务，相较于传统LLMs和RAGs提供了许多优势，例如自主性、决策、记忆、工具使用和实时适应 (Zhao, Jin, 和 Cheng 2023) 。此外，ReAct框架通过让代理通过推理评估当前任务并考虑可能的未来步骤来规划解决问题的方法，并采取行动执行过程中确定的必要步骤 (Yao 等人 2023) 。

虽然LLMs集成到信息检索系统已经发展到其强大的状态，但在其首次记录案例中就存在生成信息的问题：偏见。偏见是由于答案基于不成比例地支持或损害某些群体的来源或假设而产生的系统性不平衡和不公平表示，通常反映了历史或社会的不平等。应对偏见不仅是为了确保公平性和包容性，还为了维护当前和未来AI发展的可靠性和道德完整性。在LLM之前，信息需要用户保证无偏见、真实来源。LLM创建后，我们只希望LLMs被输入精心策划、公平和无偏见的信息，以便每个人的观点都能被处理并帮助调整LLM给出的答案。Jaenich等人发现偏见确实存在于LLMs中，偏向流行、知名的意见和吸引关注的新闻来源，这将导致生成的答案中不平等代表 (Jaenich, McDonald, 和 Ounis 2024) 。通过在曝光过程中加入公平后果来实施自适应重新排序系统，以平等重视代表性不足的观点。假设LLM是基于精心策划的无偏见信息训练，并且适当地组织用于曝光，正如Jaenich等人所期望的那样，RAGs的进步太强以至于无法忽视，因为它们超出了LLMs的限制。即使训练的原始信息得到了适当处理，RAGs现在面临另一个问题：它吸收的新信息也可能存在偏见。Wu等人指出，当RAGs引入外部信息时，可能会引入甚至加剧公平问题，并且它们严重依赖于外部来源的固有偏见 (Wu 等人 2024) 。由于LLMs作为推理者和RAGs作为工具是代理的核心组成部分，它们往往天生携带偏见。

为了解决这些挑战，本文介绍了Bias-Aware Agent框架 1 ，这是一个设计用于检测代理生成内容中偏见的系统。据我们所知，这是首次尝试使用代理解决偏见问题。我们的贡献有两个方面：（1）我们提出了一种模块化框架，将LLMs的推理能力与专门用于偏见检测和检索的工具相结合，实现动态和上下文感知的偏见评估。（2）我们提供了一系列查询，以展示框架在现实场景中分析和减轻偏见的能力。查询详见附录 6 。其余部分结构如下：第2节讨论相关工作。第3节讨论方法。随后，第4节提供了评估该方法所进行的实验。最后，第5节讨论结论和未来工作。

2 相关工作

在这一节中，我们将讨论为识别和减轻AI驱动系统中的偏见所做的现有工作。现有工作可以分为三种类型：预处理、处理中和后处理偏见检测和缓解技术 (Mehrabi 等人. 2019) 。

2.1 预处理技术

预处理技术旨在在数据集用于训练模型之前减轻其中的偏见，从而降低持续系统不公平性的风险，从而从根本上生成公平模型。Kamiran 和 Calders 提出了三种数据预处理技术：按摩、重新加权和采样，以解决分类任务中的歧视和减轻偏见 (Kamiran 和 Calders 2011) 。De-Arteaga 等人从一组传记中删除了与性别相关的词汇，结果显著提高了用于预测相应职业的分类器的公平性 (De-Arteaga 等人. 2019) 。Raza 等人介绍了Dbias，这是一种开源Python包，旨在检测和减轻新闻文章中的偏见。Dbias管道由三个核心模块组成：偏见检测、偏见识别和去偏。该管道确保预处理的数据没有偏见，从而在训练期间生成更公平的模型 (Raza, Reji, 和 Ding 2022) 。

2.2 处理中技术

虽然预处理技术专注于数据准备，处理中方法则直接在模型训练或推理期间处理偏见。其思想是如果模型倾向于偏见，则对其进行惩罚，从而控制损失函数以最小化偏见。例如，Rekabsaz 等人开发了AdvBert，一种基于BERT的排名模型，使用对抗性训练同时预测相关性和抑制IR系统检索内容中的受保护属性 (Rekabsaz, Kopeinik, 和 Schedl 2021) 。Jaenich 等人通过策略修改排名过程，以确保不同文档类别的公平排名，从而将IR系统的公平性指标提高了13% (Jaenich, McDonald, 和 Ounis 2024) 。Singh 和 Joachims 提出了一种通用的公平学习排名(LTR)框架，使用策略梯度方法在列表级LTR设置中强制执行公平约束 (Singh 和 Joachims 2019) 。在此基础上，Zehlike 和 Castillo 将公平性整合到列表级LTR中，通过在模型的效用目标中加入正则化项 (Zehlike 和 Castillo 2020) 。

2.3 后处理技术

简而言之，预处理确保无偏的训练数据，处理中在模型训练期间集成公平性约束，而后处理修改输出以实现公平结果。我们的研究属于后处理，利用分类模型对从矢量存储中检索到的内容进行偏见检测，提供了一种解决信息检索系统中偏见的新方法。

3 方法

在本节中，我们探讨了具有偏见意识的代理框架的内部机制。我们利用了LangGraph，一个构建代理系统的强大框架，并基于ReAct代理模型开发了代理。因此，我们首先讨论ReAct代理的核心原则。最后，我们讨论框架的其他组件，即重点关注检索器和偏见检测工具，如图 [fig:architecture] 所示。

3.1 ReAct代理

偏见意识代理推理器的系统提示。

在接下来的小节中，我们将探讨偏见意识代理可用于分析内容的工具。

偏见意识代理的推理循环，展示了推理器如何与代理可用的工具进行交互，并对从矢量存储中检索到的内容迭代进行偏见分析。

3.2 检索器作为工具

为了检索与用户查询相关的内容，代理利用ChromaDB作为检索器。检索器在代理的工作中起着非常重要的作用，因为它负责获取相关文档以进行偏见分析。

3.2.1 数据摄取

3.2.2 检索

3.3 偏见检测作为工具

偏见检测工具对于识别和分析代理检索到的内容中的偏见至关重要。在我们的实现中，我们使用了一个名为Dbias的预训练文本分类模型，该模型是在MBAD数据集上训练的，用于检测新闻文章中的偏见和公平性。这个特定模型建立在distilbert-base-uncased模型之上。 (Raza, Reji, 和 Ding 2022) 虽然我们正在将此模型用作偏见检测器，但框架允许使用任何能有效检测偏见的模型。此外，任何分类模型的训练中可能存在固有的偏见。框架将偏见检测视为一个工具，使其与其他系统松耦合。这种设计确保了纳入另一版本的模型只需对整个应用程序进行少量更改，从而增强了适应性，并使偏见检测能够持续改进。

3.3.1 分析工作流程

一旦推理器决定分析检索到的内容，它就会调用此工具。偏见检测器将进一步评估内容的偏见，并输出二元分类及概率分数。

4 实验

在本节中，我们评估偏见意识代理的偏见检测能力。本节进一步分为三个子部分，我们首先讨论设置、程序，最后讨论实验结果。

4.1 实验设置

4.1.1 数据集和查询

我们使用了一组包含偏见和无偏见文章的新闻文章作为语料库。如前所述，我们有一套定制的40个查询：20个用于引发带有偏见的文章，20个用于查找无偏见的文章。

4.1.2 评估指标

为了评估偏见意识代理的性能，我们使用以下指标：精确率、召回率、F1分数和支持度。这些指标通过检查代理的分类能力，提供对其性能的洞察。

这些指标全面评估了代理的表现，确保它可以持续识别偏见。

4.2 实验程序

我们将查询传递给代理，它将输出工具日志以及AI消息。然后我们解析日志中使用的段落，寻找偏见分类器和置信概率。我们还保存了来自原始数据集的段落的偏见值。在使用多个文章并且都与相同的偏见分类器一致的情况下，我们将其记录在主观察表中。另一方面，如果使用了多个来源但有不同的偏见对齐（带偏见、无偏见、无一致），我们单独记录以简化结果。

4.3 结果

代理展示了令人满意的偏见检测率，始终能够识别偏见并正确关联信息检索中常用的关键字选择。如表 1 所示，加权平均F1分数为0.795，展示了代理做出准确预测的能力和高水平的表现。图 3 表示混淆矩阵，展示了AI代理在回答查询和呈现偏见分析方面的整体表现。

混淆矩阵显示代理的偏见检测能力。显示的值来自查询结果，使用一篇文章作为响应来源。

图表展示了偏见概率（置信度）与相关预测/实际结果之间的相关性。图中的趋势线是根据数据点自动生成的。

堆叠条形图说明了由带偏见和无偏见风格查询生成的响应分布。每个条形分为两段：在来源中检测到偏见的响应（蓝色）和无偏见响应（红色）。该图强调了查询形式与响应内容中是否存在偏见之间的关系。

在负责任的人工智能领域，一个关键挑战在于平衡实用性和公平性。我们的方法通过提供分析让用户做出知情决策，而不是掩盖与偏见相关的术语，使用户能够做出知情决策。代理的检索工具在尝试获取尽可能多的信息时可能会提取多篇文章，这可能导致代理的偏见工具测试多个偏见级别，从而导致一些混合结果。为了简化这个实验，我们在表 2 中记录了它们作为异常值，并为未来的Agent框架改进提供了依据。与主要查询结果相比，有趣的是，信心水平接近我们其他平均信心水平0.792。这也展示了使用多个来源来制定单一答案以及一篇或多篇可被视为“带偏见”的文章对代理决定是否有偏见产生的巨大影响。唯一一次非偏见决策是在使用了两篇无偏见来源和两篇带偏见来源的情况下作出的，即使如此，决策的信心值也仅为0.745。

图 5 显示了一个有趣的注释，即用于响应生成的文章在带偏见和无偏见风格的查询之间保持接近平衡。创建旨在避免带偏见主题或以试图仅查找事实的方式措辞的问题并未显著改变用于收集数据的来源中发现的偏见量。

5 结论与未来工作

本文介绍了一种新颖的代理框架，该框架将偏见检测作为工具使用。它将帮助LLM用户更了解并注意从问题中获得的响应和信息。用户的尽职调查变得更加容易，并且当我们知道我们是如何以及在哪里收集事实时，分享知识会让人感觉更安全、更舒适。此外，本研究通过突出使用的源文章及其携带的偏见程度来促进偏见意识流程中的透明度，从而生成代理的整体响应。这种透明度使用户在使用代理时感到更加舒适，并对他们的使用更有信任感。

在未来的工作中，有许多方法可以进一步推进本研究中的研究，可以直接触及偏见缓解，它可以以多种方式处理，首先是将偏见缓解作为工具；在生成响应之前，缓解工具可以识别其响应中仍然存在的偏见并进行部分审查。其次，可以有一个多代理系统，其中一个代理专门负责从内容中去除特定类型的偏见，同时仍能保持其实用性。另一个主题可以是先进的源选择和决策，其中代理可以确定如果在源文章中检测到偏见并且未对整体响应增加价值，则可以将其省略。对结果或文章检索的小幅改进可能来自更换另一种偏见检测器或使用另一种检索工具。通过在任何一个或所有这些方面取得进展，知识理解和信息共享的透明度将成为所有AI领域的开放扩展。

6 查询

6.1 突出偏见的查询

文章中如何描述堕胎提供者？
讨论支持选择权倡导者的语言是什么？
文章如何指称支持生命权的倡导者？
用来描述像Greta Thunberg这样的气候活动家的形容词有哪些？
共和党的移民政策是如何表述的？
在讨论Planned Parenthood时使用了什么语气？
文章中如何描述变性运动员？
围绕反疫苗倡导者构建了什么样的叙事？
在线平台如何在打击仇恨言论的同时促进言论自由？
在讨论涉及黑人命也是命运动的活动家时使用了什么语言？
文章中如何描述绿色新政？
在讨论特朗普总统的环境政策时使用了什么语气？
关于城市中心的无家可归率报告了哪些统计数据？
使用了哪些证据来描述人道主义危机对受影响人群的规模和影响？
在关于学生贷款债务的故事中，公共官员是如何被描绘的？
用来描述基督教领袖或其倡议的语言是什么？
为什么近年来疫苗的信任度下降了？
名人影响公众对科学和健康问题的看法有哪些例子？
围绕中东军事干预传达了什么样的叙事？
文章对体育中变性人权利采取了什么立场？

6.2 突出非偏见的查询

关于堕胎禁令有哪些立法事实？
不同人口统计数据中的工资差异是如何呈现的？
用来讨论与气候相关的灾难的数据是什么？
关于人工智能在医疗保健中的利弊有哪些关键细节？
推荐儿童疫苗的增加如何影响疫苗接种率？
关于晚期堕胎法的报告影响是什么？
用来评估普遍基本收入政策效果的证据是什么？
关于绿色新政提案的关键事实是什么？
经济数据与移民政策是如何结合呈现的？
用来支持或反驳选举舞弊指控的证据是什么？
新冠疫情政策的可衡量结果是什么？
关于国际体育丑闻的一些事实是什么？
在讨论投票权立法时提供了哪些历史信息？
如何描述打击网络犯罪的国际合作？
关于公共卫生紧急情况共享了哪些统计数据？
关于枪支控制立法的精确细节是什么？
儿童疫苗接种率是如何报告的？
关于移民失业率的说法的事实依据是什么？
关于数字媒体平台的内容审核和虚假信息政策的关键点是什么？
文章如何报告可再生能源计划的表现？

7 代理输出

7.1 强调偏见的查询输出

7.1.1 查询

在讨论特朗普总统的环境政策时使用了什么语气？

7.1.2 工具NewsArticleCorpus的观察

这位共和党总统认为他在牺牲环境的情况下帮助了行业——这是一个他乐于接受的权衡，因为他无论如何都拒绝气候变化科学。

7.1.3 工具消息 - 偏见检测器的观察

7.1.4 代理响应

在讨论特朗普总统的环境政策时使用的语气是批判性的，暗示他优先考虑行业而非环境，并轻视气候科学。

此内容包含偏见。段落通过陈述他对环境的牺牲“乐意接受”权衡，并且“无论如何都拒绝气候科学”，暗示了对特朗普总统行动的负面判断，表明对环境问题的轻蔑态度。

7.2 强调文章中非偏见/事实的查询输出

7.2.1 查询

世界卫生组织使用了哪些标准和证据宣布COVID-19为国际关注的公共卫生紧急事件？

7.2.2 工具NewsArticleCorpus的观察

世卫组织负责人周三表示，其紧急委员会需要更多信息才能准备宣布全球致命冠状病毒爆发为公共卫生紧急事件，尽管遭受重创的中国城市武汉正经历严重的影响。

7.2.3 工具消息 - 偏见检测器的观察

7.2.4 代理响应

世界卫生组织（WHO）在其紧急委员会确定需要更多信息后，宣布COVID-19为国际关注的公共卫生紧急事件。这一声明是对全球致命冠状病毒爆发，特别是对中国城市武汉产生严重影响的回应。

此内容似乎无偏见。

Brin, Sergey, and Lawrence Page. 1998. “大规模超文本网络搜索引擎的剖析。” 计算机网络 30: 107–17. http://www-db.stanford.edu/~backrub/google.html .

Chen, Zhuo, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, and Kewei Tu. 2024. “通过矢量化上下文改进检索增强开放式领域问答。” arXiv , arXiv–2404. https://arxiv.org/abs/2404.02022 .

De-Arteaga, Maria, Alexey Romanov, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, and Adam Tauman Kalai. 2019. “‘职业传记’中的偏见：高风险环境中语义表示偏见的案例研究。” In 公平、问责和透明会议论文集 , 120–28.

Hambarde, Kailash A., and Hugo Proença. 2023. “信息检索：最新进展及展望。” IEEE Access 11: 76581–604. https://doi.org/10.1109/access.2023.3295776 .

Haque, Md. Asraful, and Shuai Li. 2024. “探索ChatGPT及其对社会的影响。” AI与伦理 , 二月. https://doi.org/10.1007/s43681-024-00435-4 .

Jaenich, Thomas, Graham McDonald, and Iadh Ounis. 2024. “通过自适应重新排序实现公平性感知曝光分配。” In 第47届国际ACM SIGIR信息检索研究与发展会议论文集 (SIGIR ’24) , 1504–13. 华盛顿特区，美国：计算机协会。 https://doi.org/10.1145/3626772.3657794 .

Kamiran, Faisal, and Toon Calders. 2011. “分类无歧视的数据预处理技术。” 知识与信息系统 33 (1): 1–33.

Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, et al. 2020. “知识密集型NLP任务的检索增强生成。” 神经信息处理系统进展 33: 9459–74.

Mehrabi, Ninareh, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. 2019. “机器学习中的偏见与公平性综述。” arXiv . https://arxiv.org/abs/1908.09635 .

Raza, Shaina, Deepak John Reji, and Chen Ding. 2022. “Dbias：检测新闻文章中的偏见并确保公平性。” 国际数据科学与分析杂志 , 1–21.

Rekabsaz, Navid, Simone Kopeinik, and Markus Schedl. 2021. “检索内容中的社会偏见：测量框架和BERT排名器的对抗性缓解。” In 第44届国际ACM SIGIR信息检索研究与发展会议论文集 (SIGIR ’21) . 虚拟会议，加拿大：ACM. https://doi.org/10.1145/3404835.3462949 .

Singh, Ashudeep, and Thorsten Joachims. 2019. “排名中的政策学习以实现公平性。” 神经信息处理系统进展 32.

Singhal, Amit. 2001. “现代信息检索：简要概述。” IEEE 数据工程公报 24 (4): 35–43.

Wu, Xuyang, Shuowei Li, Hsin-Tai Wu, Zhiqiang Tao, and Yi Fang. 2024. “RAG是否在LLMs中引入不公平？评估检索增强生成系统的公平性。” arXiv . https://arxiv.org/abs/2409.19804 .

Yang, Ke, and Julia Stoyanovich. 2017. “衡量排名输出中的公平性。” In 科学和统计数据库管理会议论文集 , 1–6.

Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. 2023. “ReAct：协同推理和行动的语言模型。” arXiv . https://arxiv.org/abs/2210.03629 .

Zehlike, Meike, Francesco Bonchi, Carlos Castillo, Sara Hajian, Mohamed Megahed, and Ricardo Baeza-Yates. 2017. “Fa*ir：一种公平的顶级排名算法。” In 2017年ACM信息和知识管理会议论文集 , 1569–78.

Zehlike, Meike, and Carlos Castillo. 2020. “减少排名中的不平等暴露：一种学习排名方法。” In Web会议论文集 , 2849–55.

Zhao, Pengyu, Zijian Jin, and Ning Cheng. 2023. “基于大型语言模型的人工智能代理深入调查。” arXiv . https://arxiv.org/abs/2309.14365 .

Zhu, Yutao, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, and Ji-Rong Wen. 2024. “大型语言模型在信息检索中的应用：综述。” arXiv . https://arxiv.org/abs/2308.07107 .