LLM Bias
文章平均质量分 64
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
A Watermark for Low-entropy and Unbiased Generation in Large Language Models
大型语言模型 (LLM) 的最新进展凸显了滥用的风险,引发了对准确检测 LLM 生成内容的担忧。检测问题的可行解决方案是将难以察觉的标识符注入 LLM,称为水印。以前的工作表明,无偏见的水印通过保持 LLM 输出概率分布的期望来确保不可伪造并保持文本质量。但是,以前的无偏水印方法对于本地部署是不切实际的,因为它们依赖于在检测过程中访问白盒 LLM 和输入提示。此外,这些方法未能为水印检测的 II 类误差提供统计保证。原创 2024-10-30 19:43:25 · 76 阅读 · 0 评论 -
Assessing Political Bias in Large Language Models
在人工智能 (AI) 对社会动态的潜在影响的背景下,对大型语言模型 (LLM) 中偏见的评估已成为当代话语中的关键问题。在接近性能预测的转折点时,识别和考虑 LLM 应用程序中的政治偏见尤为重要。然后,接受有关潜在影响和社会行为的教育 LLM 由于与人类操作员的相互作用而可以大规模驱动。这样,即将到来的欧洲议会选举就不会不受 LLM 的影响。我们从德国选民的角度评估了当前最流行的开源 LLM(指导或辅助模型)对欧盟 (EU) 内部政治问题的政治偏见。原创 2024-10-13 12:04:09 · 29 阅读 · 0 评论 -
Unifying Bias and Unfairness in Information Retrieval
随着大型语言模型(LLMs)的快速发展,信息检索(IR)系统,如搜索引擎和推荐系统,经历了重大的范式转变。这种演变在预示着新机遇的同时,也带来了新的挑战,特别是在偏见和不公平方面,这可能会威胁到信息生态系统。本文对整合LLMs时IR系统中新出现的和紧迫的偏见和不公平问题的现有研究进行了全面的调查。我们首先将偏见和不公平问题统一为分布不匹配问题,为通过分布对齐对各种缓解策略进行分类奠定了基础。随后,我们系统地研究了LLM集成到IR系统的三个关键阶段(数据收集、模型开发和结果评估)产生的具体偏见和不公平问题。原创 2024-08-01 19:34:26 · 109 阅读 · 0 评论 -
LangBiTe: A Platform for Testing Bias in Large Language Models
将大型语言模型(LLM)集成到各种软件应用程序中,引发了人们对其潜在偏见的担忧。通常,这些模型是在论坛、网站、社交媒体和其他互联网来源的大量数据上训练的,这些数据可能会在模型中灌输有害和歧视性的行为。为了解决这个问题,我们提出了LangBiTe,这是一个系统评估LLM中是否存在偏见的测试平台。LangBiTe使开发团队能够定制他们的测试场景,并根据一组用户定义的道德要求自动生成和执行测试用例。每个测试都由一个输入LLM的提示和一个相应的测试预言器组成,该预言器仔细检查LLM的响应以识别偏差。原创 2024-07-11 17:01:11 · 52 阅读 · 0 评论 -
Fairness in Large Language Models: A Taxonomic Survey
大型语言模型(LLM)在各个领域都取得了显著的成功。然而,尽管这些算法在许多实际应用中具有良好的性能,但大多数算法缺乏公平性考虑。因此,它们可能导致对某些社区,特别是边缘化人群的歧视性结果,促使对公平LLM进行广泛研究。另一方面,与传统机器学习的公平性相比,LLM中的公平性需要独特的背景、分类和实现技术。为此,本调查全面概述了有关公平LLM的现有文献的最新进展。具体而言,对LLM进行了简要介绍,然后分析了导致LLM偏差的因素。原创 2024-07-11 14:50:01 · 64 阅读 · 0 评论 -
Born With a Silver Spoon? Investigating Socioeconomic Bias in Large Language Models
社会中的社会经济偏见加剧了差距,影响了基于个人经济和社会背景获得机会和资源的机会。这一普遍存在的问题使系统性不平等现象长期存在,阻碍了社会追求包容性进步。在这篇论文中,我们调查了在大型语言模型中存在的社会经济偏见(如果有的话)。为此,我们引入了一个新的数据集SILVERSPOON,由3000个样本组成,这些样本说明了一些假设场景,这些场景涉及弱势群体因其环境而采取道德模糊的行为,并询问这种行为是否在道德上合理。此外,该数据集具有双重标签方案,并由社会经济光谱两端的人进行了注释。原创 2024-07-09 16:34:11 · 49 阅读 · 0 评论 -
Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection
大型语言模型(LLM)在语言生成之外的许多不同应用中都表现出色,例如翻译、摘要和情感分析。一个有趣的应用是文本分类。这在识别仇恨或有毒言论的领域变得至关重要——这是一个充满挑战和道德困境的领域。在我们的研究中,我们有两个目标:首先,提供一篇围绕LLM作为分类器的文献综述,强调它们在检测和分类仇恨或有毒内容方面的作用。随后,我们探讨了几种LLM在对仇恨言论进行分类方面的功效:确定哪些LLM在这项任务中表现出色,以及它们的基本属性和训练。深入了解导致LLM熟练(或缺乏)辨别仇恨内容的因素。原创 2024-07-04 19:10:00 · 52 阅读 · 0 评论 -
Locating and Mitigating Gender Bias in Large Language Models
大型语言模型(LLM)在广泛的语料库上进行预训练,以学习包含人类偏好的事实和人类认知。然而,这一过程可能会无意中导致这些模型获得社会中普遍存在的偏见和刻板印象。先前的研究通常通过一维视角来解决偏见问题,集中精力定位或减轻偏见。这种有限的视角阻碍了对偏见的研究相互补充和逐步发展。在这项研究中,我们将定位和减轻偏见的过程整合在一个统一的框架内。最初,我们使用因果中介分析来追踪大型语言模型中不同成分激活的因果效应。原创 2024-06-08 11:10:40 · 200 阅读 · 0 评论 -
Whose Side Are You On? Investigating the Political Stance of Large Language Models
大型语言模型(LLM)因其在文本生成、摘要和信息检索等日常任务中的应用而广受欢迎。随着LLM的广泛采用持续激增,确保这些模型产生政治公正的回应变得越来越重要,目的是防止信息泡沫,维护代表性的公平性,并减轻确认偏见。在本文中,我们提出了一个定量框架和管道,旨在系统地研究LLM的政治取向。我们的调查深入探讨了LLM在从堕胎到LGBTQ问题的八个两极分化话题中的政治结盟。原创 2024-06-04 14:27:16 · 58 阅读 · 0 评论 -
Reducing Large Language Model Bias with Emphasis on “Restricted Industries”
尽管大型语言模型的能力越来越强,但人们对它们产生的偏见表示担忧。在本文中,我们提出了一种新的、自动化的机制,通过在偏差生产者的视角下和在数据有限的“受限行业”的背景下增加指定的数据集来消除偏差。我们还创建了两个新的额外指标,mb指数和db指数,以量化偏差,考虑到偏差是由于固有的模型架构和数据集质量造成的。原创 2024-06-04 10:41:34 · 41 阅读 · 0 评论