总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
How are LLMs mitigating stereotyping harms? Learning from search engine studies
LLMs 如何减轻刻板印象的危害?从搜索引擎研究中汲取经验
https://arxiv.org/pdf/2407.11733
https://www.doubao.com/chat/3450590725372930
速览
研究动机:LLMs安全训练重法律风险轻社会影响,借鉴搜索引擎研究关注刻板印象危害。
研究问题:安全训练对刻板印象的缓解效果、模型差异、群体毒性差异及提示影响。
研究方法:用自动补全提示测试7个LLMs,从拒绝率、毒性、情感、尊重度四指标评估,对比有无安全提示。
研究结论:系统提示缓解部分刻板印象,但群体差异显著,交叉身份问题突出,格式影响模型安全性。
不足:聚焦英文和美国社会群体,未覆盖多语言及复杂交叉身份,分类器可能存在偏见。
这篇论文主要探讨了大型语言模型(LLMs)在刻板印象危害方面的表现及缓解措施,核心内容如下:
一、研究背景:LLMs的安全训练与社会影响的失衡
- 现状:自ChatGPT发布以来,LLMs广泛应用,但开发者更关注法律风险相关的安全训练(如毒性内容、不当建议),却忽视了社会影响评估(如刻板印象对边缘群体的伤害)。
- 类比搜索引擎:类似早年搜索引擎的自动补全功能曾因输出偏见结果引发争议(如“犹太人是否[邪恶]”),后来才加强对种族、宗教等歧视性内容的审核。如今LLMs的免责声明与早期搜索引擎类似,可能低估了刻板印象的危害。
二、研究方法:用自动补全式提示测试LLMs的刻板印象
- 测试对象:7个主流LLMs(如Llama-2、Mistral、Falcon等),覆盖不同地区和参数规模。
- 提示设计:模仿搜索引擎的自动补全提示(如“Why do [某群体]”“How are [某群体]”),针对170多个社会群体(包括种族、性别、性取向、宗教等)。
- 评估指标:
- 拒绝率:模型拒绝回答不当提示的比例。
- 毒性:输出内容是否包含仇恨、歧视性语言。
- 情感倾向:输出内容的积极或消极情绪。
- 尊重度:对社会群体的隐含偏见程度。
- 对比实验:测试有无“安全系统提示”(引导模型拒绝有害内容)时的表现差异。
三、关键发现:安全训练的效果与不足
-
系统提示的作用有限
- 多数模型在添加安全提示后,刻板印象输出有所减少,但无法彻底解决问题。例如,Falcon和Sailor在有提示时毒性反而增加。
- 拒绝率差异大:Llama-2拒绝率最高(超70%),Falcon几乎不拒绝任何提示,且输出毒性内容最多。
-
敏感群体的刻板印象问题突出
- 种族/民族:涉及“黑人”“亚洲人”等群体的提示,毒性响应最多,拒绝率也较高。
- 性取向:“同性恋”“双性恋”等群体常触发负面刻板印象,如将其与性行为过度关联。
- 交叉身份:同时涉及种族和性别的提示(如“黑人女性”),更容易引发刻板印象。
-
格式影响模型行为
- 当移除聊天模板(模拟自动补全场景)时,所有模型的毒性响应显著增加,说明现有安全机制可能依赖特定输入格式,缺乏鲁棒性。
四、结论与建议:重视刻板印象危害的多方责任
- 对开发者:需在训练数据筛选、模型评估中加入刻板印象检测,而非仅关注显性毒性。例如,Llama-2虽拒绝率高,但仍对“穆斯林”等群体存在隐性偏见。
- 对研究者:现有评估框架(如HELM)缺乏刻板印象测试,需开发更全面的基准,纳入交叉身份分析。
- 对政策制定者:建议建立独立的AI审计机制,要求模型公开刻板印象评估结果,并将社会影响指标纳入“模型排行榜”,而非仅看性能分数。
五、总结
- 核心问题:LLMs的“安全训练”多针对明显有害内容(如脏话、暴力),但对隐性刻板印象(如“女性不适合当CEO”“黑人数学差”)关注不足。
- 现实风险:当LLMs被集成到搜索引擎或日常应用中,可能通过自动补全、问答等方式强化社会偏见,尤其对少数群体造成伤害。
- 解决方向:需要开发者、研究者和政策制定者共同努力,让模型不仅“不骂人”,还能避免默认强化刻板印象,真正实现公平与包容。