Pytorch实现自动编码器进行图像压缩重建

自动编码器(AutoEncoder)由编码器(Encoder)和解码器(Decoder)两部分组成。编码器和解码器可以是任意模型,通常神经网络模型作为编码器和解码器。

自动编码器作为一种数据压缩的方法,其原理是:输入数据经过编码器变成一个编码(code),然后将这个编码作为解码器的输入,观察解码器的输出是否能还原原始数据,因此将解码器的输出和原始数据的误差作为最优化的目标。

自动编码器(AutoEncoder)是一种无监督学习模型,通常用于数据压缩、降维、特征学习等任务。它由两部分组成:编码器(Encoder)和解码器(Decoder)。

  1. 编码器(Encoder)

    编码器接收输入数据,并将其转换为潜在空间(latent space)中的低维编码。这个编码通常比原始数据的维度要小,因此实现了数据的压缩和特征提取。编码器的目标是学习如何最大程度地保留输入数据的重要信息。
  2. 解码器(Decoder)

    解码器接收来自编码器的编码,并尝试将其解码为原始数据。解码器的目标是将潜在空间的编码映射回原始数据空间,从而尽可能地重构原始数据。
  3. 训练过程

    训练自动编码器的过程是通过最小化重构误差来实现的。通常使用一种损失函数(如均方误差)来衡量解码器的输出与原始输入之间的差异。训练过程通过反向传播算法来更新编码器和解码器的参数,使它们能够更好地重构输入数据。
  4. 应用

    自动编码器的应用非常广泛。除了作为数据压缩和解压缩的工具外,它还可以用于降维,即将高维数据映射到低维空间,以便于可视化或后续处理。此外,自动编码器还可用于特征学习,即通过学习输入数据的有用表示来提取数据的有用特征,这对于后续的监督学习任务非常有用。
  5. 变种

    自动编码器有多种变种,如稀疏自动编码器(Sparse AutoEncoder)、去噪自动编码器(Denoising AutoEncoder)、变分自动编码器(Variational AutoEncoder)等。这些变种通过引入不同的约束或改进,使得自动编码器在不同的任务和数据集上表现更好。

自动编码器的设计和训练是深度学习领域中的重要研究方向之一,它在图像处理、自然语言处理、推荐系统等多个领域都有着广泛的应用。

下面以MNIST数据集为例,使用pytorch1.0构建一个卷积神经网络做自动编码器。

1.添加引用的库文件

import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from torchvision.utils import save_image

2.定义超参数,是否使用GPU加速

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
batch_size = 512

3.加载MNIST数据集,并将图片的大小变为-1~1之间,这样可以使输入变得更对称,训练更加容易收敛。

# 标准化
data_tf = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize([0.5], [0.5])]
)
 
 
train_dataset = datasets.MNIST(root='./data', train=True, transform=data_tf, download=True)
train_data = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

4.定义卷积神经网络的自动编码器

class AutoEncoder(nn.Module):
    def __init__(self):
        super(AutoEncoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(1, 16, 3, stride=3, padding=1),  # b,16,10,10
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=2),  # b,16,5,5
            nn.Conv2d(16, 8, 3, stride=2, padding=1),  # b,8,3,3
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=1)  # b,8,2,2
        )
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(8, 16, 3, stride=2),   # b,16,5,5
            nn.ReLU(True),
            nn.ConvTranspose2d(16, 8, 5, stride=3, padding=1),  # b,8,15,15
            nn.ReLU(True),
            nn.ConvTranspose2d(8, 1, 2, stride=2, padding=1),   # b,1,28,28
            nn.Tanh()
        )
 
    def forward(self, x):
        encode = self.encoder(x)
        decode = self.decoder(encode)
        return encode, decode
 

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0,groups=1, bias=True, dilation=1)

  • in_channels(int):输入数据的通道数;
  • out_channels(int):输出数据的通道数;
  • kernel_size(int or tuple):滤波器或卷积核的大小;
  • stride(int or tuple,optional) :步长;
  • padding(int or tuple, optional):四周是否进行0填充;
  • groups(int, optional) – 从输入通道到输出通道的阻塞连接数
  • bias(bool, optional) - 如果bias=True,添加偏置
  • dilation(int or tuple, optional) – 卷积核元素之间的间距

对于每一条边输入,输出的尺寸的公式如下:

解码器使用nn.ConvTranspose2d(),可以看作卷积的反操作。具体参数如下:

torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0,output_padding=0, groups=1, bias=True, dilation=1)

  • in_channels(int) – 输入信号的通道数
  • out_channels(int) – 卷积产生的通道数
  • kerner_size(int or tuple) - 卷积核的大小
  • stride(int or tuple,optional) - 卷积步长,即要将输入扩大的倍数。
  • padding(int or tuple, optional) - 输入的每一条边补充0的层数,高宽都增加2*padding
  • output_padding(int or tuple, optional) - 输出边补充0的层数,高宽都增加padding
  • groups(int, optional) – 从输入通道到输出通道的阻塞连接数
  • bias(bool, optional) - 如果bias=True,添加偏置
  • dilation(int or tuple, optional) – 卷积核元素之间的间距

对于每一条边输入,输出的尺寸的公式如下:

5.实例化模型,定义loss函数和优化函数

model = AutoEncoder().to(device)
 
# 定义loss函数和优化方法
loss_fn = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-5)

6.训练并保存解码器生成的图片

for t in range(40):
    for data in train_data:
        img, label = data
        img = img.to(device)
        label = label.to(device)
        _, output = model(img)
        loss = loss_fn(output, img) / img.shape[0]  # 平均损失
 
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
 
    if (t + 1) % 5 == 0:  # 每 5 次,保存一下解码的图片和原图片
        print('epoch: {}, Loss: {:.4f}'.format(t + 1, loss.item()))
        pic = to_img(output.cpu().data)
        if not os.path.exists('./conv_autoencoder'):
            os.mkdir('./conv_autoencoder')
        save_image(pic, './conv_autoencoder/decode_image_{}.png'.format(t + 1))
        save_image(img, './conv_autoencoder/raw_image_{}.png'.format(t + 1))

结果对比(左边原始图片,右边生成图片):

附上完整代码:

import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from torchvision.utils import save_image
 
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
batch_size = 512
 
# 标准化
data_tf = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize([0.5], [0.5])]
)
 
 
train_dataset = datasets.MNIST(root='./data', train=True, transform=data_tf, download=True)
train_data = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
 
def to_img(x):
    x = 0.5 * (x + 1.)  # 将-1~1转成0-1
    x = x.clamp(0, 1)
    x = x.view(x.shape[0], 1, 28, 28)
    return x
 
 
class AutoEncoder(nn.Module):
    def __init__(self):
        super(AutoEncoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(1, 16, 3, stride=3, padding=1),  # b,16,10,10
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=2),  # b,16,5,5
            nn.Conv2d(16, 8, 3, stride=2, padding=1),  # b,8,3,3
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=1)  # b,8,2,2
        )
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(8, 16, 3, stride=2),   # b,16,5,5
            nn.ReLU(True),
            nn.ConvTranspose2d(16, 8, 5, stride=3, padding=1),  # b,8,15,15
            nn.ReLU(True),
            nn.ConvTranspose2d(8, 1, 2, stride=2, padding=1),   # b,1,28,28
            nn.Tanh()
        )
 
    def forward(self, x):
        encode = self.encoder(x)
        decode = self.decoder(encode)
        return encode, decode
 
 
model = AutoEncoder().to(device)
 
# 定义loss函数和优化方法
loss_fn = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-5)
 
for t in range(40):
    for data in train_data:
        img, label = data
        img = img.to(device)
        label = label.to(device)
        _, output = model(img)
        loss = loss_fn(output, img) / img.shape[0]  # 平均损失
 
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
 
    if (t + 1) % 5 == 0:  # 每 5 次,保存一下解码的图片和原图片
        print('epoch: {}, Loss: {:.4f}'.format(t + 1, loss.item()))
        pic = to_img(output.cpu().data)
        if not os.path.exists('./conv_autoencoder'):
            os.mkdir('./conv_autoencoder')
        save_image(pic, './conv_autoencoder/decode_image_{}.png'.format(t + 1))
        save_image(img, './conv_autoencoder/raw_image_{}.png'.format(t + 1))

如需定制/改动,可私信!

  • 28
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值