一文弄懂自编码器 -- Autoencoders

1. 引言

近年来,自编码器(Autoencoder)一词在许多人工智能相关的研究论文、期刊和学位论文中被频繁提及。自动编码器于1980年推出,是一种用于神经网络的无监督学习技术,可以从未被标注的训练集中学习。

本文重点介绍自编码器的概念、相关变体及其应用,闲话少说,我们直接开始吧!

2. 原理介绍

自编码器神经网络是一种无监督的机器学习算法,它的主要目的为将输入层的数据压缩成较短的格式,我们也可以称为潜在空间的特征表示,并通过解码将上述特征解码成与原始输入最为相近的形式。在这里插入图片描述
这样我们在使用原始输入图像的时候,就可以使用维度较小的压缩特征经过解码器后进行替代。这听着是不是很熟悉,我们有一个类似的机器学习算法,即PCA做同样的任务。那么为什么我们需要自动编码器呢?

3. 自动编码器的优势

自动编码器相对PCA算法的优势归纳如下:
在这里插入图片描述

  • 自编码器可以通过多层非线性激活函数来具备特征的非线性变换。
  • 自编码器可以使用卷积层来学习更适合视频、图像序列的数据。
  • 自编码器可以利用来自另一个模型的预训练层通过迁移学习来增强编码器/解码器

3. 自动编码器网络结构

一般来说,自动编码器主要由三部分过程,即encoder,code和decoder。
图示如下:
在这里插入图片描述
接着我们来介绍这三部分的作用:

  • 编码器Encoder:网络的这一部分作用为将输入压缩为潜在空间表示。编码器将输入图像编码为降维的压缩表示。
  • 压缩表示Code:网络的这一部分表示送到解码器的压缩输入
  • 解码器Decoder:该层将输入的压缩表示解码回原始尺寸。解码图像是原始图像的有损重建,并且它是从潜在空间进行重建的。

编码器和解码器之间的层,即压缩表示Code也被称为瓶颈Bottleneck。这是一种精心的设计,可以决定观测数据的哪些方面是主要信息,哪些方面是可以丢弃的。

5. 卷积自编码器

自编码器有多种类别,首先我们来介绍在图像领域最为常用的卷积自编码器,我们观察以下图像:
在这里插入图片描述
自编码器没有考虑这样一个场景,即一个信号可以被视为其他信号的总和。卷积自编码器使用卷积算子来克服这一问题。他们通过学习将输入编码为一组简单的信号,然后尝试从中重建输入,修改图像的几何形状或颜色信息。它们是卷积网络在无监督学习中的开创性工作之一。一旦经过训练,这些编码器可以用于任何其他图像作为输入,以便提取压缩后的特征。

6. 稀疏自编码器

稀疏自编码器是另一种基于神经网络的自编码器模型,图示如下:
在这里插入图片描述
稀疏自编码器的目标是通过学习到的稀疏表示来重构输入数据。与传统自编码器相比,稀疏自编码器引入了稀疏性惩罚项,以促使隐藏层神经元的激活更加稀疏。通过强制隐藏层神经元的稀疏激活,稀疏自编码器能够更好地捕捉输入数据的重要特征。

7. 收缩自编码器

收缩自编码器是一种无监督的深度学习技术,有助于神经网络对未标记的训练数据进行编码。这是通过构建一个损失项来实现的,该损失项惩罚我们的隐藏层激活相对于输入训练样本的大导数,本质上惩罚输入中的小变化导致编码空间中的大变化的情况。

8. 图像着色

自编码器的应用之一就是图像着色,示例如下:
在这里插入图片描述
自编码器用于将任何黑白图片转换为彩色图像。根据图片中的内容,可以判断出对应目标应该是什么颜色。

9. 维度压缩

重建的图像与我们的输入相同,但具有更小的尺寸。它有助于提供具有减小的像素值的相似图像。
在这里插入图片描述

10. 图像去噪

自动编码器看到的输入不是原始输入,而是随机添加噪声后的版本。因此训练去噪自编码器以从含噪声版本重建原始输入。
在这里插入图片描述

11. 图像去水印

自编码器还可用于去除图像中的水印,或在拍摄视频或电影时去除其他文字水印。
在这里插入图片描述

12. 总结

本文重点介绍了自编码器的概念,网络结构以及相关变体,并给出了其在工业界的相关应用。

您学废了嘛?

张正友标定法是一种常用的相机标定方法,广泛应用于计算机视觉领域。该方法通过采集一系列已知的三维物体在相机坐标系下的二维投影点,来计算相机内外参数矩阵,从而实现相机的几何校正和测量。 具体步骤如下: 1. 初始化标定板:选择一个特定的标定板,例如棋盘格,然后在每个方格的交叉点上贴上黑白相间的标志。 2. 放置标定板:将标定板放置在计算机视觉系统所见范围内,保证标定板能够在不同角度、位置下被相机观察到。 3. 拍摄标定图像:使用相机对标定板进行拍摄,至少需要12-20幅图像,图像应该包含不同的姿态和视角。 4. 检测标志物:从每个标定图像中提取特征点,通常使用角点检测算法来检测标志物的位置。 5. 计算相机参数:根据提取的特征点,通过最小二乘法来计算相机的内部参数(焦距、主点坐标)和外部参数(旋转矩阵、平移向量)。 6. 优化结果:根据计算得到的相机参数,利用优化算法来进一步提高标定的精度。 7. 验证标定结果:使用标定结果对图像进行校正,并测量标定板上的特征点,通过计算误差指标来验证标定结果的准确性。 总之,张正友标定法通过采集已知物体在相机坐标系下的二维投影点,实现了相机参数的计算和校正,对于计算机视觉中的三维重建、目标检测等任务具有重要意义。掌握这种标定方法可以帮助我们更好地理解相机成像过程,提高图像处理和计算机视觉算法的精度和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵卓不凡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值