浅谈自监督预训练

最新推荐文章于 2025-03-09 20:19:16 发布

eso1983

最新推荐文章于 2025-03-09 20:19:16 发布

阅读量1.3k

点赞数 13

文章标签：人工智能 python 开发语言

本文链接：https://blog.csdn.net/eso1983/article/details/145452208

版权

自监督预训练（Self-Supervised Pre-training）是无需人工标注数据、通过设计自动生成监督信号来训练模型的技术。它通过挖掘数据内在的结构化信息（如上下文关系、时间序列依赖、空间连续性等）构建预训练任务，使模型学习通用表征，最终迁移到下游任务中。以下是其核心原理、技术分类、实现方法及实际应用详解。

1.自监督预训练核心思想

目标驱动
- 通过设计代理任务（Pretext Task）让模型学习数据的内在规律，例如：
  - 文本：预测被掩盖的词（BERT）、句子顺序（ALBERT）
  - 图像：预测旋转角度、图像补全
  - 视频：预测帧顺序或时间连续性
表征学习
- 模型在预训练中学习到的特征需满足：
  - 不变性：对噪声、数据增强鲁棒
  - 判别性：能区分不同语义内容
迁移能力
- 预训练后的模型通过微调（Fine-tuning）适配下游任务（如分类、检测等）。

2.技术分类与典型方法

1. 生成式方法（Generative）

任务目标：重建被破坏的原始数据（如填补掩码区域）。
代表模型：
- BERT（NLP）：掩盖15%的Token，预测被掩盖内容。
- BEiT（CV）：将图像分块并掩盖部分块，用视觉Token重建。
Python示例（图像重建）：

import torch
import torch.nn as nn

class Autoencoder(nn.Module):
def __init__(self):
super().__init__()
self.encoder = nn.Sequential(
nn.Conv2d(3, 16, 3), # 编码器
nn.ReLU(),
nn.MaxPool2d(2)
)
self.decoder = nn.Sequential(
nn.ConvTranspose2d(16, 3, 3, stride=2), # 解码器
nn.Sigmoid()
)

def forward(self, x):
x = self.encoder(x)
return self.decoder(x)

# 使用随机掩码生成训练数据
def mask_image(image, mask_ratio=0.3):
mask = torch.rand_like(image) < mask_ratio
masked_image = image * (~mask)
return masked_image, image

# 训练循环示例
model = Autoencoder()
criterion = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 假设 dataloader 加载原始图像
for epoch in range(10):
for img in dataloader:
masked_img, target = mask_image(img)
output = model(masked_img)
loss = criterion(output, target)
optimizer.zero_grad()
loss.backward()
optimizer.step()

2. 对比式方法（Contrastive）

任务目标：拉近正样本对（同一数据的不同增强视图），推远负样本对。
代表模型：
- SimCLR（CV）：对同一图像应用两次增强（裁剪+颜色变换），最大化相似性。
- MoCo（CV）：维护动态队列存储负样本，提升对比效率。
PyTorch示例（SimCLR简化版）：

import torch
import torch.nn as nn
from torchvision import transforms

# 数据增强模块
augmentation = transforms.Compose([
transforms.RandomResizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ColorJitter(0.5, 0.5, 0.5),
transforms.ToTensor(),
])

class SimCLR(nn.Module):
def __init__(self, backbone):
super().__init__()
self.backbone = backbone # 例如 ResNet-18
self.projection = nn.Sequential(
nn.Linear(512, 256),
nn.ReLU(),
nn.Linear(256, 128) # 投影到低维空间
)

def forward(self, x):
features = self.backbone(x)
return self.projection(features)

# NT-Xent 损失函数
def contrastive_loss(z1, z2, temperature=0.1):
z1 = nn.functional.normalize(z1, dim=1)
z2 = nn.functional.normalize(z2, dim=1)
logits = (z1 @ z2.T) / temperature
labels = torch.arange(z1.size(0)).to(z1.device)
loss = nn.CrossEntropyLoss()(logits, labels)
return loss

# 训练步骤（假设batch中每个样本生成两个增强视图）
model = SimCLR(backbone=ResNet18())
optimizer = torch.optim.Adam(model.parameters(), lr=3e-4)

for images in dataloader:
aug1 = torch.stack([augmentation(img) for img in images])
aug2 = torch.stack([augmentation(img) for img in images])
z1 = model(aug1)
z2 = model(aug2)
loss = contrastive_loss(z1, z2)
loss.backward()
optimizer.step()

3. 预测式方法（Predictive）

任务目标：预测数据的内在属性（如旋转角度、时间序列未来值）。
代表模型：
- Rotation Prediction（CV）：预测图像旋转角度（0°, 90°, 180°, 270°）。
- CPC（语音/视频）：通过上下文预测未来时间步。
Keras示例（图像旋转预测）：

import tensorflow as tf
from tensorflow.keras import layers, Model

# 构建模型
inputs = layers.Input(shape=(224,224,3))
x = layers.Conv2D(64, 3, activation='relu')(inputs)
x = layers.GlobalAveragePooling2D()(x)
outputs = layers.Dense(4, activation='softmax')(x) # 4个旋转类别
model = Model(inputs, outputs)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

# 数据生成函数（将图像旋转并生成标签）
def generate_rotation_batch(images):
rotated_images = []
labels = []
for img in images:
angle = np.random.choice([0, 1, 2, 3]) # 0:0°, 1:90°, 2:180°, 3:270°
rotated_img = tf.image.rot90(img, k=angle)
rotated_images.append(rotated_img)
labels.append(angle)
return np.array(rotated_images), np.array(labels)

# 训练循环
for epoch in range(10):
for batch in dataloader:
x_train, y_train = generate_rotation_batch(batch)
model.train_on_batch(x_train, y_train)

3.关键挑战与优化策略

数据增强设计
- 影响模型泛化能力的关键因素（如对图像使用MixUp、CutMix增强）。
- 文本领域可通过随机替换、删除词生成正样本。
负样本采样
- 对比学习中需大量负样本，可采用内存库（MoCo）或分布式批量采样。
模型容量与计算资源
- 自监督训练通常需要大模型（如ViT-Large）和大批量（4096+），需借助分布式训练框架。
下游任务适配
- 特征提取：冻结预训练权重，仅训练分类头。
- 微调：解冻全部权重，用下游数据微调（学习率需调小）。

4.典型应用场景

领域	应用案例	代表模型
NLP	文本分类、命名实体识别	BERT, RoBERTa
CV	图像分类、目标检测	MoCo, DINO
语音	语音识别、说话人验证	wav2vec 2.0, HuBERT
多模态	图文检索、视频理解	CLIP, VideoMAE