深度学习系列（12）：自监督学习（Self-Supervised Learning）详解

DoYangTan

于 2025-03-16 11:08:57 发布

阅读量964

点赞数 9

分类专栏：深度学习系列文章标签：深度学习学习人工智能

本文链接：https://blog.csdn.net/Azperk/article/details/146292190

版权

深度学习系列专栏收录该内容

14 篇文章

订阅专栏

深度学习系列（12）：自监督学习（Self-Supervised Learning）详解

在上一期中，我们介绍了强化学习（Reinforcement Learning）及其在游戏和机器人控制中的应用。本期博客将深入解析自监督学习（Self-Supervised Learning）的核心原理及其在预训练模型中的应用。

1. 自监督学习简介

自监督学习是一种特殊的学习范式，它不依赖于人工标签，而是通过构造代理任务（pretext task）来学习数据的表示。自监督学习的目标是通过数据本身的结构来获取有效的特征表示，这种方式通常比监督学习节省了大量的标注数据。

自监督学习的核心思想是：

自我标注：利用数据本身的信息生成标签，进而训练模型。
预训练任务：通过设置辅助任务来逼近目标任务，通常用于生成特征表示。
无监督性质：不需要人工标注的标签，极大地扩展了模型的应用范围。

2. 自监督学习的核心原理

自监督学习的目标是从未标注的数据中学习到数据的潜在结构或特征。具体流程包括：

构建代理任务：定义一个从输入数据中构建标签的过程，通常是通过数据本身的一部分作为目标来预测其他部分。
模型训练：使用这些生成的标签进行训练，通过优化代理任务来学习数据的表示。
表示学习：训练完成后，模型可以用于下游任务（如分类、回归等），无需再进行标注数据的微调。

常见的自监督学习方法包括：

对比学习（Contrastive Learning）：通过构造正负样本对进行训练。
生成式模型：例如变分自编码器（VAE）和生成对抗网络（GAN）可以被视为自监督学习的一种形式。
掩码建模（Masked Modeling）：通过遮蔽输入的一部分数据并让模型进行预测（例如BERT）。

3. 自监督学习的结构

自监督学习的基本架构包括以下部分：

输入数据：通常是未标注的数据。
代理任务：通过自监督方式从输入数据中构建目标。
神经网络模型：学习输入数据的表示。
损失函数：用于评估模型预测与目标之间的差异。

例如，BERT 模型使用“掩码语言模型”（Masked Language Model，MLM）作为代理任务，将输入文本的一部分单词遮蔽，训练模型预测被遮蔽的单词。

4. 自监督学习的 PyTorch 实现

对比学习实现

对比学习是一种典型的自监督学习方法，它通过构造正负样本对来学习表示。以下是一个简单的对比学习的 PyTorch 实现：

import torch
import torch.nn as nn
import torch.optim as optim

# 构建一个简单的神经网络
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc = nn.Linear(10, 128)

    def forward(self, x):
        return self.fc(x)

# 假设我们有两个样本的特征表示
model = SimpleModel()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 对比损失函数
def contrastive_loss(x1, x2, label, margin=1.0):
    euclidean_distance = torch.nn.functional.pairwise_distance(x1, x2, 2)
    loss = torch.mean((1 - label) * torch.pow(euclidean_distance, 2) +
                      (label) * torch.pow(torch.clamp(margin - euclidean_distance, min=0.0), 2))
    return loss

# 假设有两个样本 x1 和 x2，标签 label 为 0（表示它们属于不同类）
x1 = torch.randn(1, 10)
x2 = torch.randn(1, 10)
label = torch.tensor([0])  # 标签为 0，表示样本属于不同类别

# 前向传播
out1 = model(x1)
out2 = model(x2)

# 计算损失并更新
loss = contrastive_loss(out1, out2, label)
optimizer.zero_grad()
loss.backward()
optimizer.step()

print("Loss:", loss.item())

BERT 掩码语言模型（Masked Language Model）实现

BERT 的自监督任务之一是掩码语言模型（MLM），我们可以使用以下代码来实现这一任务：

from transformers import BertTokenizer, BertForMaskedLM
import torch

# 加载BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')

# 输入文本
text = "Deep learning is a [MASK] field."

# 将文本转为token
inputs = tokenizer(text, return_tensors="pt")

# 获取mask位置的token索引
mask_token_index = torch.where(inputs["input_ids"] == tokenizer.mask_token_id)[1]

# 模型预测mask token
with torch.no_grad():
    outputs = model(**inputs)
    predictions = outputs.logits

# 获取预测的token
predicted_token_id = predictions[0, mask_token_index].argmax(dim=-1)
predicted_token = tokenizer.decode(predicted_token_id)

print(f"Predicted word: {predicted_token}")