开源项目 `concept-erasure` 使用教程

明俪钧

于 2024-09-13 07:32:49 发布

阅读量365

点赞数 13

本文链接：https://blog.csdn.net/gitblog_00026/article/details/142192316

版权

开源项目 `concept-erasure` 使用教程

concept-erasure Erasing concepts from neural representations with provable guarantees 项目地址: https://gitcode.com/gh_mirrors/co/concept-erasure

1. 项目介绍

concept-erasure 是一个开源项目，旨在从神经网络表示中移除指定的特征。该项目的主要目标是提高模型的公平性和可解释性。例如，防止分类器使用性别或种族等特征，或者通过移除某个概念来观察模型行为的变化。

该项目提供了一种名为 LEAST-SQUARES CONCEPT ERASURE (LEACE) 的方法，这是一种闭式方法，可以证明在尽可能少地损害表示的情况下，防止所有线性分类器检测到某个概念。

2. 项目快速启动

安装

首先，确保你使用的是 Python 3.10 或更高版本。然后，通过 pip 安装 concept-erasure 包：

pip install concept-erasure

使用示例

以下是一个简单的使用示例，展示了如何使用 LeaceEraser 类从特征向量中移除概念：

import torch
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from concept_erasure import LeaceEraser

# 生成示例数据
n, d, k = 2048, 128, 2
X, Y = make_classification(n_samples=n, n_features=d, n_classes=k, random_state=42)
X_t = torch.from_numpy(X)
Y_t = torch.from_numpy(Y)

# 在概念擦除之前，逻辑回归可以学习到某些特征
real_lr = LogisticRegression(max_iter=1000).fit(X, Y)
beta = torch.from_numpy(real_lr.coef_)
assert beta.norm(p=torch.inf) > 0.1

# 使用 LeaceEraser 进行概念擦除
eraser = LeaceEraser.fit(X_t, Y_t)
X_ = eraser(X_t)

# 在概念擦除之后，逻辑回归无法学习到任何特征
null_lr = LogisticRegression(max_iter=1000, tol=0.0).fit(X_.numpy(), Y)
beta = torch.from_numpy(null_lr.coef_)
assert beta.norm(p=torch.inf) < 1e-4