论文阅读：2024 AIES How are LLMs mitigating stereotyping harms? Learning from search engine studies-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147359885

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

How are LLMs mitigating stereotyping harms? Learning from search engine studies
LLMs 如何减轻刻板印象的危害？从搜索引擎研究中汲取经验

https://www.doubao.com/chat/3450590725372930

速览

研究动机：LLMs安全训练重法律风险轻社会影响，借鉴搜索引擎研究关注刻板印象危害。
研究问题：安全训练对刻板印象的缓解效果、模型差异、群体毒性差异及提示影响。
研究方法：用自动补全提示测试7个LLMs，从拒绝率、毒性、情感、尊重度四指标评估，对比有无安全提示。
研究结论：系统提示缓解部分刻板印象，但群体差异显著，交叉身份问题突出，格式影响模型安全性。
不足：聚焦英文和美国社会群体，未覆盖多语言及复杂交叉身份，分类器可能存在偏见。

这篇论文主要探讨了大型语言模型（LLMs）在刻板印象危害方面的表现及缓解措施，核心内容如下：

一、研究背景：LLMs的安全训练与社会影响的失衡

现状：自ChatGPT发布以来，LLMs广泛应用，但开发者更关注法律风险相关的安全训练（如毒性内容、不当建议），却忽视了社会影响评估（如刻板印象对边缘群体的伤害）。
类比搜索引擎：类似早年搜索引擎的自动补全功能曾因输出偏见结果引发争议（如“犹太人是否[邪恶]”），后来才加强对种族、宗教等歧视性内容的审核。如今LLMs的免责声明与早期搜索引擎类似，可能低估了刻板印象的危害。

二、研究方法：用自动补全式提示测试LLMs的刻板印象

测试对象：7个主流LLMs（如Llama-2、Mistral、Falcon等），覆盖不同地区和参数规模。
提示设计：模仿搜索引擎的自动补全提示（如“Why do [某群体]”“How are [某群体]”），针对170多个社会群体（包括种族、性别、性取向、宗教等）。
评估指标：
1. 拒绝率：模型拒绝回答不当提示的比例。
2. 毒性：输出内容是否包含仇恨、歧视性语言。
3. 情感倾向：输出内容的积极或消极情绪。
4. 尊重度：对社会群体的隐含偏见程度。
对比实验：测试有无“安全系统提示”（引导模型拒绝有害内容）时的表现差异。

三、关键发现：安全训练的效果与不足

系统提示的作用有限
- 多数模型在添加安全提示后，刻板印象输出有所减少，但无法彻底解决问题。例如，Falcon和Sailor在有提示时毒性反而增加。
- 拒绝率差异大：Llama-2拒绝率最高（超70%），Falcon几乎不拒绝任何提示，且输出毒性内容最多。
敏感群体的刻板印象问题突出
- 种族/民族：涉及“黑人”“亚洲人”等群体的提示，毒性响应最多，拒绝率也较高。
- 性取向：“同性恋”“双性恋”等群体常触发负面刻板印象，如将其与性行为过度关联。
- 交叉身份：同时涉及种族和性别的提示（如“黑人女性”），更容易引发刻板印象。
格式影响模型行为
- 当移除聊天模板（模拟自动补全场景）时，所有模型的毒性响应显著增加，说明现有安全机制可能依赖特定输入格式，缺乏鲁棒性。

四、结论与建议：重视刻板印象危害的多方责任

对开发者：需在训练数据筛选、模型评估中加入刻板印象检测，而非仅关注显性毒性。例如，Llama-2虽拒绝率高，但仍对“穆斯林”等群体存在隐性偏见。
对研究者：现有评估框架（如HELM）缺乏刻板印象测试，需开发更全面的基准，纳入交叉身份分析。
对政策制定者：建议建立独立的AI审计机制，要求模型公开刻板印象评估结果，并将社会影响指标纳入“模型排行榜”，而非仅看性能分数。

五、总结