基于Torch的联邦学习文本分类案例

最新推荐文章于 2025-04-08 20:32:50 发布

高山莫衣

最新推荐文章于 2025-04-08 20:32:50 发布

阅读量706

点赞数 3

分类专栏：联邦学习文章标签：分类深度学习机器学习

原创作品，共同进步！

本文链接：https://blog.csdn.net/AdamCY888/article/details/129938588

版权

联邦学习专栏收录该内容

6 篇文章

订阅专栏

基于Torch的联邦学习文本

以下是一个基于Torch的联邦学习文本分类案例：

假设我们有两个参与方（客户端），每个客户端都有一个本地的文本数据集。我们的目标是训练一个文本分类器，使其能够在两个客户端的数据集上进行分类，并在不共享数据的情况下联合学习。为了实现这一目标，我们将使用联邦学习算法。

首先，我们将定义一个用于文本分类的模型。我们将使用一个简单的卷积神经网络（CNN）模型，该模型接收单词嵌入作为输入并输出分类结果。分类案例)

import torch
import torch.nn as nn

class TextCNN(nn.Module):
    def __init__(self, vocab_size, embedding_dim, num_classes):
        super(TextCNN, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.conv1 = nn.Conv2d(1, 128, (3, embedding_dim))
        self.conv2 = nn.Conv2d(1, 128, (4, embedding_dim))
        self.conv3 = nn.Conv2d(1, 128, (5, embedding_dim))
        self.fc = nn.Linear(384, num_classes)

    def forward(self, x):
        x = self.embedding(x)
        x = x.unsqueeze(1)
        x1 = F.relu(self.conv1(x))
        x2 = F.relu(self.conv2(x))
        x3 = F.relu(self.conv3(x))
        x1 = F.max_pool2d(x1, (x1.shape[2], 1))
        x2 = F.max_pool2d(x2, (x2.shape[2], 1))
        x3 = F.max_pool2d(x3, (x3.shape[2], 1))
        x = torch.cat((x1, x2, x3), -1)
        x = x.view(-1, 384)
        x = self.fc(x)
        return x

接下来，我们将定义用于训练和测试模型的函数。

import torch.nn.functional as F

def train(model, optimizer, criterion, dataloader):
    model.train()
    for batch_idx, (data, target) in enumerate(dataloader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

def test(model, dataloader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in dataloader:
            output = model(data)
            test_loss += F.cross_entropy(output, target, reduction='sum').item()
            pred = output.argmax(dim=1, keepdim=True)
            correct += pred.eq(target.view_as(pred)).sum().item()
    test_loss /= len(dataloader.dataset)
    accuracy = 100. * correct / len(dataloader.dataset)
    return test_loss, accuracy

现在我们可以定义主要的训练和测试过程。在这个过程中，我们将使用PySyft库来模拟联邦学习环境。

import syft as sy

hook = sy.TorchHook(torch)


# 创建两个虚拟客户端
bob = sy.VirtualWorker(hook, id="bob")
alice = sy.VirtualWorker(hook, id="alice")
# 创建一个虚拟工人
crypto_prov = sy.VirtualWorker(hook, id="crypto_prov")

现在，我们将加载每个客户端的本地数据集并将其转换为Torch张量。我们还将使用Syft将这些张量发送到对应的客户端。

# 在bob上加载本地数据
bob_data = ...
bob_targets = ...
bob_data_ptr = bob_data.send(bob)
bob_targets_ptr = bob_targets.send(bob)

# 在alice上加载本地数据
alice_data = ...
alice_targets = ...
alice_data_ptr = alice_data.send(alice)
alice_targets_ptr = alice_targets.send(alice)

现在我们可以初始化模型并在两个客户端上进行训练。在每个轮次结束时，我们将使用Federated Average算法将模型参数加权平均。我们还将使用Federated Learning过程来加密模型参数，以确保不会泄漏客户端数据。

# 初始化模型
vocab_size = ...
embedding_dim = ...
num_classes = ...
model = TextCNN(vocab_size, embedding_dim, num_classes)

# 设置优化器和损失函数
optimizer = ...
criterion = ...

# 定义每个客户端的批处理大小
bob_batch_size = ...
alice_batch_size = ...

# 训练循环
for epoch in range(num_epochs):
    # 将模型发送给客户端
    model_ptr = model.send(bob, alice)
    
    # 在每个客户端上进行训练
    bob_dataloader = torch.utils.data.DataLoader(bob_data_ptr, batch_size=bob_batch_size)
    alice_dataloader = torch.utils.data.DataLoader(alice_data_ptr, batch_size=alice_batch_size)
    train(model_ptr, optimizer, criterion, bob_dataloader)
    train(model_ptr, optimizer, criterion, alice_dataloader)
    
    # 将模型参数加权平均
    model_ptr0, model_ptr1 = model_ptr[0], model_ptr[1]
    model_ptr0.move(crypto_prov)
    model_ptr1.move(crypto_prov)
    avg_model_ptr = ((model_ptr0 * 0.5) + (model_ptr1 * 0.5)).move(bob)

    # 在测试集上评估模型
    test_data = ...
    test_targets = ...
    test_data_ptr = test_data.send(bob, alice)
    test_targets_ptr = test_targets.send(bob, alice)
    test_dataloader = torch.utils.data.DataLoader(test_data_ptr, batch_size=test_batch_size)
    test_loss, accuracy = test(avg_model_ptr, test_dataloader)
    print("Epoch {}: Test loss: {}, Accuracy: {}".format(epoch, test_loss, accuracy))

最后，我们将从虚拟工人中获取加权平均模型的最终参数，并在本地对其进行评估。首先，我们需要将模型指针移动到虚拟工人上。

avg_model_ptr.move(crypto_prov)

然后，我们可以使用.get()方法从虚拟工人中检索模型参数并在本地对其进行评估。

avg_model = avg_model_ptr.get()
test_dataloader = torch.utils.data.DataLoader(test_data, batch_size=test_batch_size)
test_loss, accuracy = test(avg_model, test_dataloader)
print("Final Test Loss: {}, Accuracy: {}".format(test_loss, accuracy))