论文阅读:2024 AIES How are LLMs mitigating stereotyping harms? Learning from search engine studies

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

How are LLMs mitigating stereotyping harms? Learning from search engine studies
LLMs 如何减轻刻板印象的危害?从搜索引擎研究中汲取经验

https://arxiv.org/pdf/2407.11733

https://www.doubao.com/chat/3450590725372930

速览

研究动机:LLMs安全训练重法律风险轻社会影响,借鉴搜索引擎研究关注刻板印象危害。
研究问题:安全训练对刻板印象的缓解效果、模型差异、群体毒性差异及提示影响。
研究方法:用自动补全提示测试7个LLMs,从拒绝率、毒性、情感、尊重度四指标评估,对比有无安全提示。
研究结论:系统提示缓解部分刻板印象,但群体差异显著,交叉身份问题突出,格式影响模型安全性。
不足:聚焦英文和美国社会群体,未覆盖多语言及复杂交叉身份,分类器可能存在偏见。

这篇论文主要探讨了大型语言模型(LLMs)在刻板印象危害方面的表现及缓解措施,核心内容如下:

一、研究背景:LLMs的安全训练与社会影响的失衡

  • 现状:自ChatGPT发布以来,LLMs广泛应用,但开发者更关注法律风险相关的安全训练(如毒性内容、不当建议),却忽视了社会影响评估(如刻板印象对边缘群体的伤害)。
  • 类比搜索引擎:类似早年搜索引擎的自动补全功能曾因输出偏见结果引发争议(如“犹太人是否[邪恶]”),后来才加强对种族、宗教等歧视性内容的审核。如今LLMs的免责声明与早期搜索引擎类似,可能低估了刻板印象的危害。

二、研究方法:用自动补全式提示测试LLMs的刻板印象

  • 测试对象:7个主流LLMs(如Llama-2、Mistral、Falcon等),覆盖不同地区和参数规模。
  • 提示设计:模仿搜索引擎的自动补全提示(如“Why do [某群体]”“How are [某群体]”),针对170多个社会群体(包括种族、性别、性取向、宗教等)。
  • 评估指标
    1. 拒绝率:模型拒绝回答不当提示的比例。
    2. 毒性:输出内容是否包含仇恨、歧视性语言。
    3. 情感倾向:输出内容的积极或消极情绪。
    4. 尊重度:对社会群体的隐含偏见程度。
  • 对比实验:测试有无“安全系统提示”(引导模型拒绝有害内容)时的表现差异。

三、关键发现:安全训练的效果与不足

  1. 系统提示的作用有限

    • 多数模型在添加安全提示后,刻板印象输出有所减少,但无法彻底解决问题。例如,Falcon和Sailor在有提示时毒性反而增加。
    • 拒绝率差异大:Llama-2拒绝率最高(超70%),Falcon几乎不拒绝任何提示,且输出毒性内容最多。
  2. 敏感群体的刻板印象问题突出

    • 种族/民族:涉及“黑人”“亚洲人”等群体的提示,毒性响应最多,拒绝率也较高。
    • 性取向:“同性恋”“双性恋”等群体常触发负面刻板印象,如将其与性行为过度关联。
    • 交叉身份:同时涉及种族和性别的提示(如“黑人女性”),更容易引发刻板印象。
  3. 格式影响模型行为

    • 当移除聊天模板(模拟自动补全场景)时,所有模型的毒性响应显著增加,说明现有安全机制可能依赖特定输入格式,缺乏鲁棒性。

四、结论与建议:重视刻板印象危害的多方责任

  • 对开发者:需在训练数据筛选、模型评估中加入刻板印象检测,而非仅关注显性毒性。例如,Llama-2虽拒绝率高,但仍对“穆斯林”等群体存在隐性偏见。
  • 对研究者:现有评估框架(如HELM)缺乏刻板印象测试,需开发更全面的基准,纳入交叉身份分析。
  • 对政策制定者:建议建立独立的AI审计机制,要求模型公开刻板印象评估结果,并将社会影响指标纳入“模型排行榜”,而非仅看性能分数。

五、总结

  • 核心问题:LLMs的“安全训练”多针对明显有害内容(如脏话、暴力),但对隐性刻板印象(如“女性不适合当CEO”“黑人数学差”)关注不足。
  • 现实风险:当LLMs被集成到搜索引擎或日常应用中,可能通过自动补全、问答等方式强化社会偏见,尤其对少数群体造成伤害。
  • 解决方向:需要开发者、研究者和政策制定者共同努力,让模型不仅“不骂人”,还能避免默认强化刻板印象,真正实现公平与包容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值