人工智能顶会CVPR2023《揭秘对抗性示例中的因果特征:提升深度神经网络鲁棒性的新途径》论文解读

1.引言

对抗性示例起源于对深度神经网络的不稳定性的观察。这些示例是经过精心设计的输入,它们通过引入微小但故意的扰动,使得深度神经网络产生错误的输出,尽管这些扰动对人类观察者几乎是不可察觉的。这种现象揭示了深度学习模型在视觉感知方面与人类存在显著差异,尤其是在解释和理解图像内容的能力方面。

论文强调使用因果推断的视角来理解对抗性示例的必要性。传统上,深度学习主要关注于关联关系的建模,即通过大量数据训练模型来学习输入和输出之间的相关性。然而,这种方法忽视了潜在的因果关系,即特定输入特征是如何导致输出的变化。通过因果推断视角,研究者可以更深入地理解哪些特征是对模型预测具有决定性影响的,从而提高模型的解释性和鲁棒性。

2.相关工作

**工具变量(IV)**回归是经济学中用于鉴别因果关系的一种重要方法。它主要用于解决内生性问题,即当模型中的解释变量与误差项相关时,导致的估计偏误。在这种情况下,IV回归通过引入一个或多个与解释变量相关,但与模型误差项不相关的工具变量,来识别真正的因果关系。这种方法使得研究者能够估计变量间的因果效应,即使在存在未观察到的混杂变量的情况下也是如此。

在机器学习领域,IV回归的概念和技术已经开始被探索和应用。尽管机器学习的主要焦点通常是预测而不是因果推断,但近年来对理解和解释模型预测的兴趣日益增加。在这种背景下,IV回归提供了一种强大的工具,可以帮助揭示模型预测背后的因果机制。尤其是在处理高维数据和复杂模型时,IV回归的方法和思想为机器学习带来了新的视角和可能性

举个例子说明工具变量(IV)的应用:

当然,让我们通过一个简化的例子来解释工具变量(IV)回归的应用:

假设我们想研究教育水平(例如,接受的年数)对个人收入的影响。这里,教育水平是解释变量,个人收入是因变量。然而,这个模型可能存在内生性问题,因为个人的能力或动机可能同时影响他们的教育水平和收入,但这些因素可能没有在模型中直接观察到或测量。

为了解决这个问题,我们可以使用一个工具变量。假设在某个地区,政府实施了一项政策,随机地为一些地区提供更多的教育资源。这种政策实施可以作为一个工具变量,因为它可能影响个人的教育水平(更多的教育资源可能鼓励更长时间的教育),但不直接影响个人的收入(除了通过教育水平这一路径)。

  1. 第一阶段回归:我们首先使用政府教育政策(工具变量)来预测个人的教育水平。这一步骤帮助我们获取教育水平的一个无偏估计,减少了潜在的能力或动机等未观察因素的影响。
  2. 第二阶段回归:接着,我们使用第一阶段得到的预测教育水平(经过“净化”的教育水平)来预测个人收入。这一步骤的目的是估计教育水平对收入的真实影响。

通过这个例子,我们可以更准确地估计教育对收入的因果影响,同时解决了内生性问题。这种方法在经济学研究中非常有用,尤其是在处理那些难以通过实验方法直接检验的因果关系时。

3. 对抗性IV回归

3.1 重新审视非参数IV回归

在论文中,详细介绍了非参数IV回归的设计,包括其中的关键公式和概念:

非参数IV回归模型可以表示为一个两阶段的估计过程,通常涉及以下关键方程:

  1. 第一阶段 Y = g ( X , ϵ ) Y = g(X, \epsilon) Y=g(X,ϵ)

    • 在这个阶段, Y Y Y是因变量, X X X是内生解释变量,而 ϵ \epsilon ϵ是误差项。函数 g ( ⋅ ) g(\cdot) g()表示 X X X Y Y Y之间的潜在关系,它是一个未知的非参数函数。
  2. 第二阶段 X = h ( Z , u ) X = h(Z, u) X=h(Z,u)

    • 在第二阶段, Z Z Z是工具变量,它与 X X X相关,但假设与误差项 ϵ \epsilon ϵ不相关。 u u u是另一个误差项。函数 h ( ⋅ ) h(\cdot) h() 表示 Z Z Z X X X之间的关系,也是一个未知的非参数函数。

在这个设置中,目标是估计函数 g ( ⋅ ) g(\cdot) g(),它表示 X X X Y Y Y的因果效应。然而,由于 X X X ϵ \epsilon ϵ相关,直接估计 g ( ⋅ ) g(\cdot) g() 是有偏的。因此,使用工具变量 Z Z Z来进行无偏估计。

这个过程涉及两个关键步骤:

  • 首先,在第一阶段,使用 Z Z Z来预测 X X X。这可以通过回归 X X X Z Z Z上来实现,从而得到 X X X的一个估计,我们称之为 X ^ \hat{X} X^
  • 然后,在第二阶段,使用这个预测值 X ^ \hat{X} X^ 来估计 Y Y Y。这样,我们可以得到 X X X Y Y Y的因果效应的无偏估计。

非参数IV回归的一个重要特点是它不依赖于特定的函数形式,使得分析更加灵活,能够捕捉复杂的、非线性的关系。但这也意味着需要使用更复杂的统计技术来估计和解释这些关系。

下面是使用PyTorch实现非参数IV回归的代码示例

import torch
import torch.nn as nn
import torch.optim as optim

# 假设数据:Y(因变量),X(内生解释变量),Z(工具变量)
# 这里使用随机数据作为示例
n_samples = 1000
Y = torch.randn(n_samples, 1)
X = torch.randn(n_samples, 1)
Z = torch.randn(n_samples, 1)

# 第一阶段模型:用Z预测X
class Stage1Model(nn.Module):
    def __init__(self):
        super(Stage1Model, self).__init__()
        self.linear = nn.Linear(1, 1)  # 简单的线性层

    def forward(self, z):
        return self.linear(z)

# 第二阶段模型:用预测的X估计Y
class Stage2Model(nn.Module):
    def __init__(self):
        super(Stage2Model, self).__init__()
        self.linear = nn.Linear(1, 1)  # 简单的线性层

    def forward(self, x):
        return self.linear(x)

# 初始化模型
stage1_model = Stage1Model()
stage2_model = Stage2Model()

# 定义优化器
optimizer1 = optim.SGD(stage1_model.parameters(), lr=0.01)
optimizer2 = optim.SGD(stage2_model.parameters(), lr=0.01)

# 定义损失函数
loss_fn = nn.MSELoss()

# 训练第一阶段模型
for epoch in range(100):
    optimizer1.zero_grad()
    X_pred = stage1_model(Z)
    loss = loss_fn(X_pred, X)
    loss.backward()
    optimizer1.step()

# 使用第一阶段模型的输出作为第二阶段模型的输入
X_hat = stage1_model(Z).detach()

# 训练第二阶段模型
for epoch in range(100):
    optimizer2.zero_grad()
    Y_pred = stage2_model(X_hat)
    loss = loss_fn(Y_pred, Y)
    loss.backward()
    optimizer2.step()

# 输出结果:第二阶段模型的参数估计了X对Y的因果效应
print("Estimated coefficients:", stage2_model.linear.weight.data)
print("Intercept:", stage2_model.linear.bias.data)

3.2 如何在对抗性示例中识别因果特征

在论文中,作者将广义矩估计(Generalized Method of Moments,GMM)桥接到对抗性设置中,并通过建立具有最大矩限制的对抗性工具变量(IV)回归来揭示对抗性示例的起源。这个过程可以详细解释如下:

  1. 使用GMM桥接对抗性设置:GMM是一种基于样本矩(如均值、方差)的参数估计方法。在对抗性设置中,GMM被用于建立模型参数的估计,这些参数揭示了输入数据和模型输出之间的关系。具体地,通过最小化样本矩与理论矩之间的差异来估计模型参数。

  2. 最大矩限制的应用:在对抗性IV回归中,利用最大矩限制来控制和理解对抗性扰动如何影响模型输出。这意味着在生成对抗性示例时,会对这些示例的统计特性(如均值或方差)施加限制,从而确保这些扰动在统计上是可控的。

  3. 建立对抗性IV回归:通过将对抗性扰动视为工具变量,建立了一个对抗性IV回归模型。这个模型用于估计输入特征对模型输出的因果影响,其中对抗性扰动作为工具变量帮助解决内生性问题。

  4. 揭示对抗性示例的起源:通过这种方法,研究者可以揭示对抗性示例的起源,即那些导致模型预测错误的关键特征。这是通过分析对抗性扰动如何改变模型输出来实现的,从而识别出对模型预测有决定性影响的输入特征。

总之,通过将GMM应用于对抗性设置并利用最大矩限制的对抗性IV回归,论文提供了一种方法来理解和揭示对抗性示例的起源,这对于理解深度学习模型的行为和提高其鲁棒性至关重要。

对抗性示例中识别因果特征的详细过程涉及到了以下步骤和公式:

生成对抗性示例:对抗性示例是通过向原始输入数据 X X X添加微小扰动 δ \delta δ来生成的,以欺骗深度学习模型。这可以表示为 X a d v = X + δ X_{adv} = X + \delta Xadv=X+δ,其中 X a d v X_{adv} Xadv表示对抗性示例。

定义对抗性扰动:对抗性扰动 ( \delta ) 通常是通过梯度上升(或下降)方法计算的,目标是最大化(或最小化)模型的损失函数 L ( θ , X , Y ) L(\theta, X, Y) L(θ,X,Y)。这可以表示为 δ = ϵ ⋅ sign ( ∇ X L ( θ , X , Y ) ) \delta = \epsilon \cdot \text{sign}(\nabla_X L(\theta, X, Y)) δ=ϵsign(XL(θ,X,Y)),其中 ∇ X L \nabla_X L XL 是损失函数相对于输入 X X X的梯度, ϵ \epsilon ϵ 是控制扰动幅度的小常数。

应用工具变量回归:在这一步骤中,对抗性扰动 δ \delta δ被视为一种工具变量,用来估计输入特征 X X X对模型输出 Y Y Y 的因果影响。通过分析对抗性扰动如何改变模型的输出,可以揭示输入特征的因果作用。

估计因果效应:使用工具变量回归方法,可以估计 X X X Y Y Y的因果效应。这通常涉及到一个两阶段的估计过程,首先使用工具变量(对抗性扰动)来预测内生变量(输入特征),然后使用这个预测来估计因变量(模型输出)。

比较对抗性鲁棒性:通过比较不同模型在面对对抗性示例时的表现,可以评估识别和利用因果特征对提高模型鲁棒性的效果。这涉及到评估模型在正常和对抗性条件下的性能差异。

4. 因果特征的属性分析

在论文中,验证假设模型的有效性涉及以下几个关键步骤:

  1. 假设的设定:首先,明确模型的假设。这可能包括对数据生成过程的假设、模型参数的假设等。这些假设为模型的构建提供了基础,并且对模型的最终性能有重要影响。
  2. 统计检验:使用各种统计检验来验证模型假设的合理性。这可能包括对数据的分布特性进行检验、对模型参数进行估计的有效性进行评估等。这些检验有助于确保模型假设与实际数据相符合。
  3. 模型拟合度的评估:评估模型对数据的拟合程度。这可以通过计算模型预测与实际观测值之间的差异来完成,例如使用均方误差(MSE)或决定系数(R-squared)等指标。
  4. 交叉验证:采用交叉验证方法来评估模型在不同数据集上的性能。这有助于检测模型是否过拟合,即是否只在特定的数据集上表现良好而无法泛化到新的数据。
  5. 敏感性分析:进行敏感性分析,以测试模型结果对不同假设或参数选择的稳健性。这有助于了解在不同条件下模型性能的变化,从而评估模型假设的合理性和模型的可靠性。

4.1 从可视化的角度解释因果效应

  1. 定义特征变化作为工具变量:为了揭示对抗性示例中固有的因果特征,首先定义特征变化 Z Z Z 作为工具变量。这是通过对抗性训练的深度神经网络(DNNs)输出的特征表示在某一层 l l l来计算的,表示为 Z = f l ( X ϵ ) − f l ( X ) = F a d v − F n a t u r a l Z = f_l(X_\epsilon) - f_l(X) = F_{adv} - F_{natural} Z=fl(Xϵ)fl(X)=FadvFnatural,其中 f l ( X ) f_l(X) fl(X)输出第 $l 层中的特征表示, 层中的特征表示, 层中的特征表示,X$表示自然输入,而 X ϵ X_\epsilon Xϵ 表示带有对抗性扰动的对抗性示例。
  2. 利用特征可视化:通过特征可视化,可以将深度神经网络中的高维特征转换成人类可以识别的视觉表示。这使研究者能够直观地观察到自然特征和对抗性特征之间的差异,并理解这些差异如何影响模型的预测。
  3. 揭示对抗性特征的起源:通过比较自然输入和对抗性示例下的特征表示,研究者可以从可视化结果中观察到对抗性特征的起源。例如,如果一个特征在自然图像中代表一个对象,在对抗性示例中可能会被扭曲或改变以误导模型。
  4. 评估模型的鲁棒性:可视化还可以用来评估模型对对抗性扰动的鲁棒性。通过分析对抗性示例的特征表示与自然示例的特征表示之间的差异,可以评估模型对这些扰动的敏感性。

4.2 工具变量方法在本研究中的应用条件

在论文中,作者使用了一种非参数工具变量(IV)回归方法,这是一种灵活的估计方法。在对抗性学习的性质中,作者部署了一个零和优化博弈,博弈的双方是假设模型和测试函数。假设模型试图揭示处理和结果之间的因果关系,而测试函数则扰乱假设模型估计该关系。

具体到应用条件:

  1. 假设模型作为因果特征估计器

    • 在对抗性设置中,假设模型被视为因果特征估计器,它提取与正确预测高度相关的对抗性特征,以此来评估模型的对抗性鲁棒性。
  2. 测试函数制造最坏情况的反事实

    • 测试函数制造极端特征,这些特征是最坏情况下的反事实,迫使对因果特征的估计与正确的预测显著偏离。

通过这种设置,可以进一步加强假设模型,以揭示对抗性示例中的因果特征。这个过程强化了模型对于极端对抗性攻击的鲁棒性,同时也提供了一种方法来从理论上理解和量化因果关系。

总的来说,工具变量方法在本研究中的应用条件要求假设模型和测试函数在一个设置的框架内工作,其中模型旨在识别处理和结果之间的因果联系,而测试函数则探索这些联系在对抗性条件下的稳健性。这种方法论框架为研究对抗性示例提供了一种新的视角,并且对提高深度学习模型的解释性和鲁棒性有着重要的贡献。

具体操作如下:

在论文中,作者使用工具变量(IV)回归结合广义矩估计(AMR-GMM)来分析和验证模型的有效性。这里的应用条件包括以下几个方面:

  1. 对抗性特征 (Adv) F n a t u r a l + Z F_{natural} + Z Fnatural+Z定义了对抗性特征,其中 F n a t u r a l F_{natural} Fnatural 是自然特征, Z Z Z 是特征变化,代表了由标准攻击生成的对抗性扰动。

  2. 反事实特征 (CF) F n a t u r a l + g ( Z ) F_{natural} + g(Z) Fnatural+g(Z) 描述了反事实特征,其中函数 g g g可能代表对 Z Z Z的某种转换,用于模拟可能的对抗性攻击。

  3. 反事实因果特征 (CC) F n a t u r a l + ( h ∘ g ) ( Z ) F_{natural} + (h \circ g)(Z) Fnatural+(hg)(Z) 描述了反事实因果特征,表示在 g g g生成的反事实情况下,函数 h h h 如何映射这些特征到因果关系。

  4. 对抗性因果特征 (AC) F n a t u r a l + h ( Z ) F_{natural} + h(Z) Fnatural+h(Z) 定义了对抗性因果特征,直接从对抗性扰动 Z Z Z中提取因果关系。

通过上述定义,研究者可以通过分类准确率来估计模型的对抗性鲁棒性,其中上述特征组合通过 ( fl+ ) 层传播,这一层处理了由标准攻击产生的特征变化 ( Z ) 和对抗性特征 ( T )。所有特征表示都在深度神经网络(DNNs)的最后一个卷积层处理,因为这个层通常包含高级对象概念,并且有潜在的脆弱性。

总的来说,工具变量方法在本研究中的应用条件是,需要在模型中定义和处理对抗性特征和因果特征,以此来评估和提高模型对标准和对抗性攻击的鲁棒性。这种方法帮助研究者从数据中揭示模型的因果关系,从而更好地理解和改进模型的对抗性鲁棒性。

import torch
import torch.nn as nn
import torch.nn.functional as F

# 定义一个简单的DNN模型
class SimpleDNN(nn.Module):
    def __init__(self):
        super(SimpleDNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2(x), 2))
        x = x.view(-1, 320)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)

# 生成对抗性扰动
def adversarial_perturbation(data, epsilon=0.3):
    return data + epsilon * data.sign()

# 特征变换函数g和h
def g(Z):
    # 此处应定义具体的变换函数
    return Z

def h(Z):
    # 此处应定义具体的映射函数
    return Z

# 初始化模型
model = SimpleDNN()

# 假定我们有一些数据
natural_data = torch.randn(1, 1, 28, 28)
adv_data = adversarial_perturbation(natural_data)

# 计算特征变化Z
Z = model(adv_data) - model(natural_data)

# 生成反事实特征和对
#抗性因果特征
CF = g(Z) + model(natural_data)
AC = h(Z) + model(natural_data)

#假设有一个真实的标签
true_labels = torch.tensor([1])

#定义损失函数
loss_function = nn.CrossEntropyLoss()

#评估模型在自然数据和对抗性数据上的性能
natural_output = model(natural_data)
adv_output = model(adv_data)
natural_loss = loss_function(natural_output, true_labels)
adv_loss = loss_function(adv_output, true_labels)

print(f"Natural Loss: {natural_loss.item()}")
print(f"Adversarial Loss: {adv_loss.item()}")

#使用优化器进行训练
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

#模拟训练过程
model.train()
for epoch in range(10): # 假设我们训练10个epoch
    optimizer.zero_grad()
    output = model(natural_data)
    Z = model(adv_data) - output
    CF_output = g(Z) + output  # 反事实特征
    AC_output = h(Z) + output  # 对抗性因果特征
    loss = loss_function(output, true_labels) + loss_function(CF_output, true_labels) + loss_function(AC_output, true_labels)
    loss.backward()
    optimizer.step()
    print(f"Epoch {epoch+1} Loss: {loss.item()}")

4.3 如何将因果特征应用于提高网络的对抗性鲁棒性?

  1. 因果特征的注入

    • 为了在网络中有效植入因果特征以增强鲁棒性,首先需要消除由对手派生的网络的虚假相关性。简单的方法是利用假设模型来增强鲁棒性。
  2. 实际应用的障碍

    • 然而,存在一个现实的障碍,即这种方法只有在我们已经在推理阶段确定了自然输入及其对抗性示例时才有效。因此,直接利用假设模型来提高鲁棒性并不是一个可行的方法。
  3. 因果特征的逆转

    • 为了解决这个问题,论文引入了因果特征的逆转,即将识别出的因果特征反转并应用于网络的学习过程中,以此来对抗由对抗性攻击造成的影响。

在实际应用中,这可能涉及到对识别的因果特征进行某种形式的变换,然后将这些变换后的特征作为额外的信息加入到网络训练过程中。这样做可以帮助网络学习到在对抗性攻击下仍然保持鲁棒性的特征表示,从而在面对实际的对抗性攻击时,能够更好地保持其性能。

论文通过实证计算皮尔逊相关系数来证明了这些因果特征与正确预测的高度相关性,从而验证了工具变量的相关性条件。通过这种方法论的实践,论文展示了因果特征注入的有效性,以及它们在增强网络对抗性鲁棒性方面的潜力。

论文中实现因果特征逆转(causal inversion)的方法是为了在网络可能的特征边界上处理因果特征,并且提出了因果特征注入(causal inoculation),以便将因果特征(CAFE)植入到防御网络中以提高对抗性鲁棒性。以下是实现这一目标的详细描述:

  1. 因果逆转

    • 因果逆转是指在不过分损害因果预测的情况下解决因果特征可能超出允许的特征边界的问题。这在对抗性环境中尤为重要,因为对抗性扰动可能会导致模型学习到不精确或不相关的特征表示。
  2. 因果扰动

    • 因果逆转通过使用因果扰动(causal perturbation)来表示,它可以用KL散度(Kullback-Leibler divergence)的距离度量来定义。这个过程涉及到最小化从假设模型中提炼出的对抗性因果特征与对抗性扰动下输入的KL散度。
  3. CAFE的注入

    • 通过因果逆转,可以在网络中控制因果特征,以此开发如何将CAFE高效注入到防御网络中。这是通过实证风险最小化(Empirical Risk Minimization, ERM)来实现的,这样可以在包含小扰动群体的情况下进行。
  4. 提高对抗性鲁棒性

    • 在进行了详尽的分析后,通过假设模型和测试函数深入研究对抗性预测的因果关系,从而在人类可识别的方式中识别它们的语义信息。这表明,尽管存在对抗性扰动,识别出的因果特征与正确预测高度相关,并且可以通过CAFE的注入来增强网络的鲁棒性。

因此,这个过程不仅揭示了对抗性示例中因果特征的存在,并且提供了一种方法来有效地将这些特征整合到深度学习模型的防御策略中,以提高它们的对抗性鲁棒性。

具体实现如下:

论文中实现因果特征逆转的详细步骤如下:

  1. 使用正则化方法

    • 论文中使用了各种在深度神经网络(DNNs)中常见的正则化方法,如权重衰减、Lasso、Dropout 和 Lipschitz 正则化。这些正则化方法在广义矩估计(AMR-GMM)框架中发挥作用,使测试函数能够在对抗性特征边界内找出最坏情况的反事实。
  2. 建立AMR-GMM的最终目标

    • 依据论文附录B的内容,构建了包含丰富测试函数的AMR-GMM的最终目标。这个目标函数形式为: min ⁡ h ∈ H max ⁡ g ∈ G E Z [ ψ T Ω ∣ Z ( h ) ⋅ ( Ω ∘ g ) ( Z ) ] − ∣ E Z [ Z − g ( Z ) ] ∣ 2 \min_{h \in H} \max_{g \in G} \mathbb{E}_Z [\psi_T \Omega |Z(h) \cdot (\Omega \circ g)(Z)] - |\mathbb{E}_Z [Z - g(Z)]|^2 minhHmaxgGEZ[ψTΩ∣Z(h)(Ωg)(Z)]EZ[Zg(Z)]2。这个公式旨在通过最小化和最大化操作来找出模型在对抗性特征下的最佳表现。
  3. 分析因果特征的属性

    • 接下来,论文分析了从对抗性工具变量回归结果中获得的特征表示的几个结合。这些分析帮助揭示了因果特征在对抗性环境下的行为和属性。
  4. 因果逆转的实现

    • 因果逆转的具体实现细节可能在论文的附录中更加详细地描述。它涉及将识别的因果特征进行逆转,然后将这些逆转后的特征作为额外信息纳入到网络的学习和训练过程中,以此来对抗对抗性攻击造成的影响。

通过这些步骤,论文在理论和实践上展示了如何通过因果特征逆转和注入来提高深度学习模型的对抗性鲁棒性。这种方法通过控制和处理因果特征,使网络能够更有效地应对对抗性攻击,并保持其在对抗性环境下的性能。

总结

本文提出了一种新颖的方法来揭示和利用因果特征,从而增强深度神经网络(DNNs)的对抗性鲁棒性,以下是主要的贡献:

  1. 内生性问题与工具变量(IV)方法

    • 论文针对深度学习模型中的内生性问题提出了工具变量方法。作者利用对抗性扰动作为工具变量,帮助揭示输入特征对模型输出的真实影响。
  2. 因果特征的识别和应用

    • 通过分析对抗性扰动对模型输出的影响,论文成功识别了对模型预测产生重要影响的因果特征。作者进一步将这些因果特征注入到防御网络中,以提高对抗性鲁棒性。
  3. 非参数IV回归与AMR-GMM框架

    • 论文采用非参数IV回归方法,结合广义矩估计(GMM)和对抗性矩限制(AMR),形成了一个强大的分析框架。这一框架用于从数据中提取和理解因果关系。
  4. 对抗性示例的可视化分析

    • 论文还探讨了如何从可视化的角度解释因果效应,使研究者能够直观地理解在对抗性攻击下模型的行为。
  5. 因果逆转与因果注入

    • 通过引入因果逆转和因果注入策略,论文展示了如何在网络中控制因果特征,从而提高其在对抗性环境下的性能。这些策略通过在包含小扰动群体的情况下进行实证风险最小化来实现。

总体而言,这篇论文为深度学习模型在面对对抗性攻击时的鲁棒性提供了新的视角和方法。通过精确地识别和处理因果特征,论文不仅增强了模型的对抗性鲁棒性,而且提高了其解释性,为未来深度学习模型的发展提供了有价值的见解。

  • 38
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

懒惰才能让科技进步

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值