机器学习中的自监督学习与无监督学习是什么意思？

卧蚕土豆

于 2024-08-08 08:30:00 发布

阅读量441

点赞数 15

分类专栏：机器学习算法科普行业调研文章标签：机器学习学习人工智能算法学习方法

本文链接：https://blog.csdn.net/mieshizhishou/article/details/140985643

版权

科普同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

行业调研

15 篇文章 0 订阅

订阅专栏

机器学习算法

12 篇文章 0 订阅

订阅专栏

XSupervisedLearning

机器学习中的自监督学习与无监督学习是什么意思？

在机器学习的众多方法中，自监督学习和无监督学习是两种重要的技术，它们在处理无标签数据时展现出了强大的能力。本文将详细介绍这两种方法的原理、示例及其在下游任务中的应用，并结合公式进行说明。

自监督学习 (Self-supervised Learning)

自监督学习是一种特殊的机器学习方法，通过生成合成的标签来训练模型，而不是依赖人工标注的数据。自监督学习的核心思想是从数据本身构造出监督信号，从而利用大量无标签的数据来进行模型训练。

原理

生成伪标签：通过对无标签数据进行某种转换，生成伪标签。例如，在图像处理中，可以通过随机遮挡图像的一部分，要求模型根据可见部分预测被遮挡部分。
定义任务：设计一些任务，这些任务既可以生成标签，又可以通过模型来预测。例如，给定一个图片，可以创建旋转预测任务，模型需要预测图片被旋转的角度。
模型训练：使用生成的伪标签来训练模型，模型的目标是最小化预测结果和伪标签之间的误差。通过这种方式，模型学会了如何从无标签数据中提取有用的特征。
迁移学习：训练好的自监督模型可以用于下游任务，例如分类、分割等。这些模型通常能在这些任务中取得良好的表现，因为它们学到了丰富的特征表示。

公式描述

假设输入数据为 $X$ ，生成的伪标签为 $\tilde{Y}$ ，模型参数为 $\theta$ ，损失函数为 $L$ 。则自监督学习的目标是最小化以下损失函数：

$\min_{\theta} L(f_{\theta}(X), \tilde{Y})$

其中， $f_{\theta}$ 表示模型的预测函数。

示例

以图像补全为例：

任务：给定一张部分被遮挡的图片，预测遮挡部分的内容。
数据生成：从原始图片中随机遮挡一部分，生成“损坏”图片，并将被遮挡部分的内容作为伪标签。
模型：使用卷积神经网络（CNN）来完成补全任务。
训练：输入“损坏”图片，输出补全图片，并计算输出与伪标签之间的误差，更新模型参数。

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 数据加载与处理
transform = transforms.Compose([
    transforms.RandomResizedCrop(224),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor()
])

train_dataset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 模型定义
class Autoencoder(nn.Module):
    def __init__(self):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=4, stride=2, padding=1),
            nn.ReLU(True),
            nn.Conv2d(64, 128, kernel_size=4, stride=2, padding=1),
            nn.ReLU(True)
        )
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1),
            nn.ReLU(True),
            nn.ConvTranspose2d(64, 3, kernel_size=4, stride=2, padding=1),
            nn.Sigmoid()
        )

    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x

model = Autoencoder()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练循环
num_epochs = 5
for epoch in range(num_epochs):
    for data in train_loader:
        img, _ = data
        output = model(img)
        loss = criterion(output, img)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

应用到下游任务

一旦自监督模型训练完成，可以将其应用到下游任务中，常见的步骤如下：

特征提取：将训练好的自监督模型的前几层作为特征提取器。例如，训练好的自编码器的编码部分可以用来提取输入图片的特征表示。
微调模型：将提取的特征输入到一个新的监督模型中，并使用带标签的数据进行微调。例如，可以在编码器后面添加一个全连接层，用于图像分类任务，然后使用少量带标签的数据进行训练。

class Classifier(nn.Module):
    def __init__(self, encoder):
        super(Classifier, self).__init__()
        self.encoder = encoder
        self.fc = nn.Linear(128 * 8 * 8, 10)  # 假设编码后的特征大小为128*8*8

    def forward(self, x):
        x = self.encoder(x)
        x = x.view(x.size(0), -1)  # 展平
        x = self.fc(x)
        return x

# 加载自监督训练好的编码器
pretrained_encoder = model.encoder

# 创建分类模型
classifier = Classifier(pretrained_encoder)

# 使用少量带标签的数据进行微调
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(classifier.parameters(), lr=0.001)

# 假设train_loader现在包含带标签的数据
for epoch in range(num_epochs):
    for data in train_loader:
        img, labels = data
        output = classifier(img)
        loss = criterion(output, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

无监督学习 (Unsupervised Learning)

无监督学习是一种机器学习方法，它使用无标签的数据进行训练，其目标是发现数据中的隐藏模式或结构。无监督学习主要用于数据聚类、降维和特征提取等任务。

原理

数据表示：输入数据通常是高维的，需要通过降维技术（如PCA、t-SNE）将其表示为低维形式，便于后续分析。
聚类分析：常用的无监督学习方法之一，通过将数据划分为不同的组或簇，使得同一簇内的数据点相似度高，而不同簇之间的相似度低。常见的算法包括K-means、DBSCAN等。
密度估计：通过估计数据的概率密度分布，可以发现数据的结构和模式。例如，Gaussian Mixture Models (GMM)可以用来估计数据的分布，并发现数据中的聚类结构。
异常检测：无监督学习也可以用于发现数据中的异常点或离群点，这些点与其他数据点有显著不同。常用的方法包括孤立森林（Isolation Forest）、One-Class SVM等。

公式描述

聚类分析：以K-means算法为例，目标是将数据集 $X = \{x_1, x_2, ..., x_n\}$ 划分为 $k$ 个簇。K-means的目标函数为：

$\min_{C, \mu} \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2$

其中， $C_i$ 表示第 $i$ 个簇， $\mu_i$ 表示第 $i$ 个簇的质心。

降维：以主成分分析（PCA）为例，目标是找到数据的主成分，使得数据在这些主成分上的投影方差最大化。PCA的目标函数为：

$\max_{W} \mathrm{tr}(W^T S W)$

其中， $S$ 是数据的协方差矩阵， $W$ 是投影矩阵。

示例

以K-means聚类为例：

任务：将数据点划分为k个簇。
数据：随机生成二维数据点。
模型：使用K-means算法进行聚类。
训练：通过迭代优化，找到最佳的簇中心，并将数据点分配到最近的簇中心。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 生成数据
np.random.seed(0)
X = np.random.randn(300, 2)

# K-means聚类
kmeans = KMeans(n_clusters=3, random_state=0)
y_kmeans = kmeans.fit_predict(X)

# 绘制结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s

=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.75)
plt.show()