探究语言模型中的性别偏见：基于因果中介分析的研究方法

最新推荐文章于 2025-05-09 18:24:41 发布

阿正的梦工坊

最新推荐文章于 2025-05-09 18:24:41 发布

阅读量683

点赞数 23

分类专栏： DL Papers 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/shizheng_Li/article/details/147462639

版权

DL Papers 专栏收录该内容

111 篇文章

订阅专栏

探究语言模型中的性别偏见：基于因果中介分析的研究方法

引言

随着神经网络模型在自然语言处理（NLP）领域的广泛应用，其强大的性能背后也隐藏着一些问题，其中之一便是模型可能从训练数据中学习到社会偏见，例如性别偏见。这些偏见可能导致模型在处理某些任务时产生不公平的预测结果，例如在文本生成中偏向于将某些职业与特定性别关联。为了深入理解语言模型如何产生这些偏见，以及哪些模型组件在其中起关键作用，Jesse Vig 等人在 2020 年发表的论文《Investigating Gender Bias in Language Models Using Causal Mediation Analysis》中提出了一种基于因果中介分析（Causal Mediation Analysis）的方法，用于剖析语言模型的内部机制。本篇博客将详细介绍该研究的问题背景、研究方法、实验设计以及主要发现，旨在帮助读者理解如何通过因果分析手段探究语言模型中的偏见问题。

Paper Link：34th Conference on Neural Information Processing Systems (NeurIPS 2020)

研究问题

性别偏见在语言模型中的表现

性别偏见是语言模型中的一个重要伦理问题。例如，给定提示“The nurse said that”，一个存在性别偏见的模型可能更倾向于生成“she”而不是“he”，这反映了社会中护士职业与女性关联的刻板印象。这种偏见源于模型在训练过程中从大规模语料库中学习到的性别分布模式，可能导致模型在实际应用中产生不公平的输出，违背了反事实公平性（counterfactual fairness）的原则，即模型的预测不应因性别等敏感属性的变化而受到影响。

传统的研究方法，如探测分类器（probing classifiers），通过分析模型的隐藏层表示来判断是否存在性别相关的语义信息。然而，这些方法只能揭示信息的存在，而无法确定这些信息是否真正被模型用于预测。此外，探测分类器可能产生不可靠的解释，难以推广到未见过的数据。因此，需要一种能够直接分析模型行为的因果方法，以揭示性别偏见如何通过模型的内部组件传播。

研究目标

本研究的目标是开发一种基于因果中介分析的框架，用于：

识别性别偏见的来源：确定语言模型中哪些组件（如神经元或注意力头）在性别偏见的传播中起关键作用。
量化偏见效应：测量输入到输出之间的性别偏见如何通过直接效应和间接效应流动。
揭示模型机制：通过干预实验，分析性别偏见在模型内部的传播路径，进而为去偏见提供理论依据。

研究以预训练的 Transformer 语言模型（如 GPT-2）为对象，重点分析性别偏见在模型中的表现及其背后的机制。

研究方法

因果中介分析的基本原理

因果中介分析是一种源于统计学和因果推断的方法，用于分解因果效应的直接和间接路径。其核心思想是通过对中介变量（mediator）进行干预，测量输入（treatment）对输出（outcome）的因果效应如何通过中介变量传递。在本研究中：

输入（treatment）：对输入文本进行性别相关的修改，例如将“The nurse said that”中的“nurse”替换为“man”。
输出（outcome）：模型的性别偏见度量，定义为反刻板印象候选词（如“he”）与刻板印象候选词（如“she”）的概率比，即 ( $\frac{p(\text{he} | u)}{p(\text{she} | u)}$ )。当 ( $y (u) < 1$ ) 时，模型表现出刻板性别偏见；当 ( $y (u) = 1$ ) 时，模型无偏。
中介变量（mediator）：模型的内部组件，如单个神经元、注意力头或整个层。

因果中介分析通过以下步骤量化效应：

在这里插入图片描述

总效应（Total Effect, TE）：测量输入干预（如将“nurse”替换为“man”）对输出偏见度量的整体影响，公式为：
$\text{TE} = \frac{y_{\text{set-gender}}(u)}{y_{\text{null}}(u)} - 1$
其中，( $y_{\text{set-gender}}(u)$ ) 是干预后的偏见度量，( $y_{\text{null}}(u)$ ) 是未干预时的偏见度量。
自然直接效应（Natural Direct Effect, NDE）：测量输入对输出的直接影响，即在固定中介变量的情况下，输入变化对输出的影响：
$\text{NDE} = \mathbb{E}_u \left[ \frac{y_{\text{set-gender}, z_{\text{null}}(u)}(u)}{y_{\text{null}}(u)} - 1 \right]$
自然间接效应（Natural Indirect Effect, NIE）：测量通过中介变量传递的间接影响，即在保持输入不变的情况下，改变中介变量的值：
$\text{NIE} = \mathbb{E}_u \left[ \frac{y_{\text{null}, z_{\text{set-gender}}(u)}(u)}{y_{\text{null}}(u)} - 1 \right]$

通过比较直接效应和间接效应，可以确定性别偏见主要通过哪些模型组件传播。

干预设计

研究设计了两类干预实验，分别针对神经元和注意力头：

神经元干预：
- 中介变量：模型中特定层的神经元激活值（( $h_{l,i,k}$ )），通常选择与职业词（如“nurse”）相关的表示。
- 干预操作：将职业词替换为反刻板印象的性别词（如“nurse”替换为“man”），并观察神经元激活值的变化。研究还探索了性别中立干预（如替换为“person”），测量“they”的概率。
- 数据集：使用 Professions 数据集，包含 17 个模板和 169 个职业，共 2873 个示例。模板形式如“The [occupation] [verb] because”。
注意力干预：
- 中介变量：注意力头（( $\alpha_{l,h}$ )）的注意力权重，定义了词与词之间的关系。
- 干预操作：在 Winograd 风格的句子中，将代词从“she”替换为“he”（swap-gender 操作），并测量注意力权重对偏见度量的影响。例如，提示“The nurse examined the farmer for injuries because she”中，刻板印象候选词为“was caring”，反刻板印象候选词为“was screaming”。
- 数据集：使用 Winobias 和 Winogender 数据集，分别包含 160/130 和 44 个示例，专注于代词消解中的性别偏见。

实验设置

模型：研究使用不同规模的 GPT-2 模型（small、medium、large、xl 和 distilled），以及随机初始化的 GPT-2 small 模型作为对照。
评估指标：通过总效应、自然直接效应和自然间接效应量化性别偏见，并分析效应在模型组件中的分布情况。
代码可用性：实验代码公开在 GitHub（https://github.com/sebastianGehrmann/CausalMediationAnalysis）。

主要发现

总效应分析

模型规模与偏见的关系：
- 在 Winobias 和 Winogender 数据集上，随着模型规模增大（从 small 到 xl），性别偏见的总效应通常增加，表明更大模型可能从训练数据中吸收更多偏见。
- 在 Professions 数据集上，模型规模与总效应的相关性不明显，但 GPT-2 xl 模型表现出最大的偏见效应。
数据集差异：
- Professions 数据集的性别偏见效应远高于 Winograd 风格数据集，可能是因为职业词的性别偏见更直接，而 Winograd 风格句子涉及复杂的共指关系。
外部性别统计相关性：
- 在 Professions 数据集中，模型的性别偏见与外部性别统计（如职业的刻板印象评分）呈中度正相关（0.35-0.45），表明模型放大了训练数据中的偏见。
- 在 Winograd 风格数据集中，相关性较低（0.17-0.26），可能由于数据规模较小或共指关系的复杂性。
性别中立案例：
- 在性别中立干预（将职业词替换为“person”）中，“they”的概率较低且一致性较高，表明模型对单数“they”的表示不足，可能混淆单数和复数用法。

中介分析结果

注意力头的稀疏性：
- 在 Winobias 数据集上，性别偏见的间接效应主要集中在模型中间层的少数注意力头中。例如，在 GPT-2 small 模型中，只需干预 10 个注意力头（共 144 个）即可达到干预所有头部的效果。
- 这种稀疏性在所有模型和数据集上均一致，表明性别偏见由特定注意力头专门处理。
神经元的分布：
- 性别偏见的间接效应主要集中在词嵌入层（layer 0）和第一隐藏层，表明这些早期层在捕获性别信息方面起到关键作用。
- 与注意力头不同，神经元效应在性别中立干预中分布更均匀，表明性别中立信息未在嵌入层中得到充分表示。
稀疏性与选择算法：
- 使用 TOP-K 算法选择最具影响力的神经元或注意力头，发现只需少量组件（约 4% 的神经元或 10 个注意力头）即可重现整体效应，凸显了性别偏见的集中性。

讨论与意义

方法的优势

因果中介分析结合了结构分析和行为分析的优点：

结构洞察：通过干预特定组件（如神经元或注意力头），揭示模型内部机制。
行为关联：直接测量组件对模型预测的影响，确保分析与模型行为相关。
因果推断：通过区分直接和间接效应，明确偏见的传播路径，克服了传统探测分类器的局限性。

局限性与未来方向

二元性别假设：
- 研究主要基于二元性别框架（男/女），未充分考虑性别中立或非二元性别的情况。未来的工作需扩展到连续性别表示。
语言局限：
- 研究聚焦于英语，结论可能不适用于其他语言，尤其是具有语法性别的语言。
数据集限制：
- 使用有限的模板和数据集，可能无法全面覆盖性别偏见的各种表现形式。

未来的研究可以：

扩展到其他模型架构（如 BERT）或任务（如机器翻译）。
分析其他类型的偏见（如种族、民族）。
开发基于中介分析的去偏见方法，例如通过干预关键组件控制模型输出。

社会影响

性别偏见不仅影响模型的公平性，还可能加剧社会不平等。理解模型内部的偏见机制是开发可信和公平模型的关键一步。本研究的方法为主动去偏见提供了理论基础，同时为研究大规模语料库中的社会偏见提供了工具。然而，研究者需注意避免因简化假设（如二元性别）而忽视非二元性别群体的需求。

结论

本研究通过因果中介分析，为剖析语言模型中的性别偏见提供了一种创新的方法。实验结果表明，性别偏见主要由少数神经元和注意力头介导，且偏见效应随着模型规模增大而增强。这些发现不仅深化了我们对语言模型内部机制的理解，也为未来的去偏见研究奠定了基础。对于研究人员和从业者而言，本文提供了一个可扩展的框架，可以应用于其他模型和偏见类型，为构建更公平的 NLP 系统贡献力量。

代码

要复现论文《Investigating Gender Bias in Language Models Using Causal Mediation Analysis》的实验，我们需要基于论文中描述的因果中介分析框架，结合公开的代码仓库（https://github.com/sebastianGehrmann/CausalMediationAnalysis），实现对预训练 Transformer 语言模型（如 GPT-2）中性别偏见的分析。以下是详细的实验代码复现步骤、代码实现和解释，涵盖数据准备、模型加载、干预实验和结果分析。代码将使用 Python 和 PyTorch，并依赖 Hugging Face 的 Transformers 库。

实验概述

论文的目标是通过因果中介分析（Causal Mediation Analysis）探究性别偏见在语言模型中的传播机制，具体分析：

神经元干预：研究单个神经元或神经元集合如何介导性别偏见。
注意力干预：研究注意力头如何影响性别偏见。
数据集：
- Professions 数据集：包含职业相关的模板，用于神经元干预实验。
- Winobias 和 Winogender 数据集：用于注意力干预实验，分析代词消解中的性别偏见。
模型：使用 GPT-2 的不同变体（small、medium、large、xl、distilled）。

实验的关键步骤包括：

计算总效应（Total Effect, TE）、自然直接效应（Natural Direct Effect, NDE）和自然间接效应（Natural Indirect Effect, NIE）。
通过干预神经元或注意力头，分析性别偏见的传播路径。
验证偏见效应的稀疏性，即少数组件是否主导偏见。

环境准备

依赖安装

确保安装以下 Python 库：

pip install torch transformers datasets pandas numpy matplotlib seaborn

克隆代码仓库

论文提供了代码仓库，我们可以直接使用：

git clone https://github.com/sebastianGehrmann/CausalMediationAnalysis.git
cd CausalMediationAnalysis

如果仓库不可用，我们将基于论文描述从头实现核心功能。

数据准备

1. Professions 数据集

描述：包含 17 个模板和 169 个职业，共 2873 个示例。模板形式如“The [occupation] [verb] because”。
来源：基于 Bolukbasi et al. (2016) 的职业列表和 Lu et al. (2018) 的模板。
处理：确保职业词不被 GPT-2 分割成子词（sub-word units），并包含刻板印象评分（stereotypicality）和定义性评分（definitionality）。

代码实现：

import pandas as pd
from datasets import Dataset

# 示例：加载 Professions 数据集
def load_professions_dataset():
    # 假设数据存储在 CSV 文件中，包含模板、职业和评分
    professions_data = {
        "template": ["The [occupation] said that", "The [occupation] worked because"],
        "occupation": ["nurse", "doctor", "engineer", "teacher"],
        "stereotypicality": [0.8, -0.7, -0.9, 0.6],  # 示例评分
        "definitionality": [0.0, 0.0, 0.0, 0.0]
    }
    df = pd.DataFrame(professions_data)
    
    # 生成示例
    examples = []
    for _, row in df.iterrows():
        for template in row["template"]:
            prompt = template.replace("[occupation]", row["occupation"])
            examples.append({
                "prompt": prompt,
                "occupation": row["occupation"],
                "stereotypicality": row["stereotypicality"],
                "definitionality": row["definitionality"]
            })
    
    return Dataset.from_list(examples)

professions_dataset = load_professions_dataset()
print(professions_dataset[0])

解释：

数据集包含提示（如“The nurse said that”）和职业的元数据。
我们需要扩展模板和职业组合，确保覆盖所有实验用例。
实际数据应从论文附录或代码仓库中的 data/ 目录加载。

2. Winobias 和 Winogender 数据集

描述：
- Winobias：包含 160/130 个 Winograd 风格示例，测试代词消解中的性别偏见。
- Winogender：包含 44 个示例，同样用于代词消解。
示例：提示“The nurse examined the farmer for injuries because she”，刻板候选词为“was caring”，反刻板候选词为“was screaming”。

代码实现：

def load_winobias_winogender():
    # 示例数据
    winobias_data = [
        {
            "prompt": "The nurse examined the farmer for injuries because she",
            "stereotypical": "was caring",
            "anti_stereotypical": "was screaming",
            "pronoun": "she"
        }
    ]
    return Dataset.from_list(winobias_data)

winobias_dataset = load_winobias_winogender()
print(winobias_dataset[0])

解释：

Winobias 和 Winogender 数据集需要从原始来源（Zhao et al., 2018; Rudinger et al., 2018）下载，或从代码仓库获取。
数据需预处理为适合语言模型输入的格式，包含提示和候选词。

模型加载

使用 Hugging Face 的 Transformers 库加载 GPT-2 模型。我们需要访问模型的内部表示（如神经元激活和注意力权重）。

代码实现：

from transformers import GPT2LMHeadModel, GPT2Tokenizer

def load_gpt2_model(model_name="gpt2"):
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name, output_attentions=True, output_hidden_states=True)
    model.eval()
    return model, tokenizer

# 加载不同规模的 GPT-2 模型
model_names = ["gpt2", "gpt2-medium", "gpt2-large", "gpt2-xl", "distilgpt2"]
models = {name: load_gpt2_model(name) for name in model_names}

解释：

output_attentions=True 和 output_hidden_states=True 确保我们可以访问注意力权重和隐藏状态。
加载多个模型变体以比较规模对偏见效应的影响。
distilgpt2 是蒸馏版本，参数较少。

因果中介分析实现

1. 偏见度量

定义偏见度量 ( $\frac{p(\text{anti-stereotypical} | u)}{p(\text{stereotypical} | u)}$ )，用于比较反刻板印象和刻板印象候选词的概率。

代码实现：

import torch

def compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical):
    # 编码输入
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs["input_ids"]
    
    # 计算候选词概率
    with torch.no_grad():
        outputs = model(input_ids)
        logits = outputs.logits[:, -1, :]  # 最后一词的 logits
        probs = torch.softmax(logits, dim=-1)
        
        stereo_id = tokenizer.encode(stereotypical)[0]
        anti_stereo_id = tokenizer.encode(anti_stereotypical)[0]
        
        p_stereo = probs[0, stereo_id].item()
        p_anti_stereo = probs[0, anti_stereo_id].item()
        
        # 避免除零
        y_u = p_anti_stereo / max(p_stereo, 1e-10)
        return y_u

# 示例
model, tokenizer = models["gpt2"]
prompt = "The nurse said that"
y_u = compute_bias_measure(model, tokenizer, prompt, "she", "he")
print(f"Bias measure y(u): {y_u}")

解释：

使用模型预测提示后下一个词的概率分布。
提取“she”和“he”的概率，计算偏见度量。
对于多词候选（如 Winobias 中的“was caring”），论文建议使用词概率的几何平均值。

2. 总效应（TE）

总效应测量输入干预（如将“nurse”替换为“man”）对偏见度量的影响：
$\text{TE} = \frac{y_{\text{set-gender}}(u)}{y_{\text{null}}(u)} - 1$

代码实现：

def compute_total_effect(model, tokenizer, prompt, occupation, new_occupation, stereotypical, anti_stereotypical):
    # 原始提示
    y_null = compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical)
    
    # 干预：替换职业
    intervened_prompt = prompt.replace(occupation, new_occupation)
    y_set_gender = compute_bias_measure(model, tokenizer, intervened_prompt, stereotypical, anti_stereotypical)
    
    # 计算总效应
    te = (y_set_gender / max(y_null, 1e-10)) - 1
    return te

# 示例
prompt = "The nurse said that"
te = compute_total_effect(model, tokenizer, prompt, "nurse", "man", "she", "he")
print(f"Total Effect: {te}")

解释：

y_null 是原始提示的偏见度量，y_set_gender 是干预后的偏见度量。
干预操作将职业词替换为反刻板印象的性别词（如“nurse” → “man”）。

3. 神经元干预

干预神经元以计算自然直接效应（NDE）和自然间接效应（NIE）：

NDE：在干预输入的同时，固定神经元值。
NIE：保持输入不变，改变神经元值到干预后的状态。

代码实现：

def intervene_neuron(model, tokenizer, prompt, occupation, new_occupation, neuron_idx, layer_idx, stereotypical, anti_stereotypical):
    # 获取原始隐藏状态
    inputs = tokenizer(prompt, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs, output_hidden_states=True)
        hidden_states = outputs.hidden_states[layer_idx]
        original_neuron_value = hidden_states[0, -1, neuron_idx].clone()
    
    # 获取干预后的隐藏状态
    intervened_prompt = prompt.replace(occupation, new_occupation)
    intervened_inputs = tokenizer(intervened_prompt, return_tensors="pt")
    with torch.no_grad():
        intervened_outputs = model(**intervened_inputs, output_hidden_states=True)
        intervened_hidden_states = intervened_outputs.hidden_states[layer_idx]
        intervened_neuron_value = intervened_hidden_states[0, -1, neuron_idx].clone()
    
    # NDE：干预输入，固定神经元
    def forward_with_fixed_neuron(inputs, fixed_value):
        outputs = model(**inputs, output_hidden_states=True)
        hidden_states = list(outputs.hidden_states)
        hidden_states[layer_idx][0, -1, neuron_idx] = fixed_value
        # 手动传播修改后的隐藏状态（需要修改模型前向传播）
        # 这里简化为直接计算 logits
        return model.transformer.h[layer_idx:](hidden_states[layer_idx])[0]
    
    y_set_gender_fixed = compute_bias_measure(model, tokenizer, intervened_prompt, stereotypical, anti_stereotypical)
    nde = (y_set_gender_fixed / max(compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical), 1e-10)) - 1
    
    # NIE：固定输入，改变神经元
    y_null_intervened = compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical)
    nie = (y_null_intervened / max(compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical), 1e-10)) - 1
    
    return nde, nie

# 示例
nde, nie = intervene_neuron(model, tokenizer, "The nurse said that", "nurse", "man", neuron_idx=0, layer_idx=0, stereotypical="she", anti_stereotypical="he")
print(f"NDE: {nde}, NIE: {nie}")

解释：

获取原始和干预后的神经元激活值（对应职业词的位置）。
NDE 需要在干预输入时固定神经元值，这要求修改模型的前向传播逻辑（此处简化为直接计算）。
NIE 需要在原始输入下使用干预后的神经元值。
实际实现中，需要对每个神经元迭代计算，并选择 TOP-K 神经元以验证稀疏性。

4. 注意力干预

干预注意力头以分析其在性别偏见中的作用。

代码实现：

def intervene_attention_head(model, tokenizer, prompt, pronoun, new_pronoun, layer_idx, head_idx, stereotypical, anti_stereotypical):
    # 获取原始注意力权重
    inputs = tokenizer(prompt, return_tensors="pt")
    with torch.no_grad():
        outputs = model(**inputs, output_attentions=True)
        attentions = outputs.attentions[layer_idx][0, head_idx].clone()  # [seq_len, seq_len]
    
    # 干预：替换代词
    intervened_prompt = prompt.replace(pronoun, new_pronoun)
    intervened_inputs = tokenizer(intervened_prompt, return_tensors="pt")
    with torch.no_grad():
        intervened_outputs = model(**intervened_inputs, output_attentions=True)
        intervened_attentions = intervened_outputs.attentions[layer_idx][0, head_idx].clone()
    
    # NDE：干预输入，固定注意力
    def forward_with_fixed_attention(inputs, fixed_attention):
        # 需要修改模型的注意力计算逻辑
        pass  # 占位，实际需实现自定义注意力
    
    y_set_gender_fixed = compute_bias_measure(model, tokenizer, intervened_prompt, stereotypical, anti_stereotypical)
    nde = (y_set_gender_fixed / max(compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical), 1e-10)) - 1
    
    # NIE：固定输入，改变注意力
    y_null_intervened = compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical)
    nie = (y_null_intervened / max(compute_bias_measure(model, tokenizer, prompt, stereotypical, anti_stereotypical), 1e-10)) - 1
    
    return nde, nie

# 示例
nde, nie = intervene_attention_head(model, tokenizer, "The nurse examined the farmer for injuries because she", "she", "he", layer_idx=4, head_idx=0, stereotypical="was caring", anti_stereotypical="was screaming")
print(f"NDE: {nde}, NIE: {nie}")

解释：

获取注意力权重矩阵，关注代词（如“she”）到其他词的注意力。
干预操作将代词替换为反刻板印象代词（如“he”）。
NDE 和 NIE 的计算需要修改注意力机制，实际实现较为复杂，可能需要自定义 Transformer 层。

结果分析

1. 计算总效应

对每个数据集和模型计算总效应，比较不同模型规模的偏见程度。

代码实现：

def analyze_total_effects(models, dataset, occupation_map):
    results = []
    for model_name, (model, tokenizer) in models.items():
        for example in dataset:
            prompt = example["prompt"]
            occupation = example["occupation"]
            new_occupation = occupation_map.get(occupation, "man")  # 反刻板印象映射
            te = compute_total_effect(model, tokenizer, prompt, occupation, new_occupation, "she", "he")
            results.append({"model": model_name, "prompt": prompt, "TE": te})
    
    return pd.DataFrame(results)

# 示例职业映射
occupation_map = {"nurse": "man", "doctor": "woman"}
te_results = analyze_total_effects(models, professions_dataset, occupation_map)
print(te_results.groupby("model")["TE"].mean())

解释：

计算每个模型在 Professions 数据集上的平均总效应。
预期结果：更大模型（如 GPT-2 xl）表现出更强的偏见效应。

2. 中介分析

分析神经元和注意力头的间接效应，验证稀疏性。

代码实现：

def analyze_mediation_effects(model, tokenizer, dataset, layer_idx, neuron_idx):
    results = []
    for example in dataset:
        prompt = example["prompt"]
        occupation = example["occupation"]
        nde, nie = intervene_neuron(model, tokenizer, prompt, occupation, "man", neuron_idx, layer_idx, "she", "he")
        results.append({"prompt": prompt, "NDE": nde, "NIE": nie})
    
    return pd.DataFrame(results)

# 示例
mediation_results = analyze_mediation_effects(model, tokenizer, professions_dataset, layer_idx=0, neuron_idx=0)
print(mediation_results["NIE"].mean())

解释：

计算每个神经元或注意力头的间接效应。
使用 TOP-K 算法选择最具影响力的组件，验证是否少数组件主导偏见。

结果可视化

生成论文中的热图和柱状图，展示间接效应的分布。

代码实现：

import seaborn as sns
import matplotlib.pyplot as plt

def plot_mediation_heatmap(results, title="Indirect Effects Heatmap"):
    pivot = results.pivot_table(index="layer_idx", columns="head_idx", values="NIE")
    sns.heatmap(pivot, annot=True, cmap="YlGnBu")
    plt.title(title)
    plt.show()

# 示例（需要实际数据）
# plot_mediation_heatmap(mediation_results)

解释：

热图展示注意力头在不同层的间接效应，预期中间层有较高效应。
柱状图可展示层级汇总的间接效应。

注意事项

计算复杂度：
- 神经元干预需要对每个神经元单独计算，复杂度为 ( $\cdot L)$ )，其中 ( $N$ ) 是神经元数量，( $L$ ) 是层数。
- 注意力干预需要修改注意力机制，可能需要自定义模型实现。
数据集完整性：
- 确保使用与论文相同的 Professions、Winobias 和 Winogender 数据集。
- 验证职业和模板的刻板印象评分。
模型一致性：
- 使用 Hugging Face 的 GPT-2 模型，确保与论文使用的版本一致。
性别中立分析：
- 论文提到对“they”的分析因单数/复数混淆而复杂，需特别处理。

预期结果

根据论文，复现实验应得到以下结果：

总效应：
- GPT-2 xl 在 Professions 数据集上总效应最高（225.217），Winobias 和 Winogender 数据集上随模型规模增加而增强。
中介分析：
- 注意力头的间接效应集中在中间层（如第 4-5 层），只需 10 个头即可重现整体效应。
- 神经元效应集中在词嵌入层和第一隐藏层，约 4% 的神经元主导偏见。
性别中立干预：
- “they”的概率较低且一致，间接效应分布更均匀。

结论

通过以上代码，我们可以复现论文的因果中介分析实验，量化语言模型中的性别偏见，并识别关键的神经元和注意力头。代码实现依赖 Hugging Face 的 Transformers 库和论文提供的公开数据集。实际运行时，建议参考代码仓库中的具体实现细节，并根据计算资源调整实验规模。未来的改进可以包括扩展到其他模型（如 BERT）或分析非二元性别偏见。