目录
2.5 变分自编码器 VAE(Variational Auto-Encoder)
二、图信号处理(graph Signal Processing,GSP)
2.2 拉普拉斯矩阵(Laplacian matrix))定义
一、表示学习
从数据中得到判别性特征的方法,减少机器学习算法对特征工程的依赖
目标
学习到一个映射:f:X→R^d,将输入映射到一个稠密的低维向量空间
1、 表示学习分类
1)离散表示与分布式表示
离散表示:one-hot编码,词袋模型就是以此为基础构架
分布式表示:RGB表示颜色的方法
2)端到端的表示学习方法
3)基于重构损失的方法
4)基于对比损失的方法
2、自编码器-基于重构的方法(Auto-Encoder)
2.1 介绍
自编码器是一种表示学习模型,以输入数据为参考,是一种无监督学习模型,可以用于数据降维和特征提取。将输入映射到某个特征空间,再从这个特征空间映射回输入空间进行重构。训练完成后,使用编码器进行特征提取。
encoder 编码器:输入数据提取特征
decoder解码器:基于提取的特征重构出输入数据
从上图可以看出,自编码器模型主要由编码器(Encoder)和解码器(Decoder)组成,其主要目的是将输入x转换成中间变量y,然后再将y转换成x_,然后对比输入x和输出x_,使得他们两个无限接近。
2.2 自编码器分类
两大类:欠完备自编码器和过完备自编码器
2.2.1 欠完备自编码器
输入x,隐藏层状态h,输出为x~
限定 h 的维度比 x 小,符合这种条件的称为欠完备自编码器
2.2.2过完备自编码器
当编码器的维度大于输入维度,称为过完备自编码器
这种编码器必须增加限制,否则学不到任何有用的信息
常用的方法为增加正则化约束,下面介绍几种常见的正则化编码器
2.3 去噪自编码器
改进之处在于原始输入的基础上加入噪声,迫使编码器不能简单学习恒等变换,必须从加噪声的数据中提取出有用信息用于恢复数据
具体做法是随机将一些输入置为0,得到了加入噪声的输入x作为编码器的输入,解构出不带噪声的数据x,损失函数为
2.4 稀疏自编码器
除在输入加噪声,在损失函数上加正则项使得模型学习到有用的特征
以限制神经元的活跃度来约束模型,尽可能使大部分神经元不活跃
2.5 变分自编码器 VAE(Variational Auto-Encoder)
2.5.1 VAE概述
原理:本质是生成模型
目标:建模样本的分布P(x),训练完成后,使用解码器生成样本
VAE变分自动编码器作为AE的变体,它主要的变动是对编码(code)的生成上。编码(code)不再像AE中是唯一映射的,而是具有某种分布,使得编码(code)在某范围内波动时都可产生对应输出。
2.5.2 为什么需要VAE
传统的AE只能生成 similar image
2.5.3 原理
在编码过程中,增加一些限制,迫使生成的隐向量能够粗略遵循一个标准正态分布(一般遵循高斯分布)
2.5.4 损失函数
2.5.5 编码过程
2.5.6 与自编码器相比
- AE是一种无监督的表示学习方法,VAE是一种生成模型
- AE隐空间不连续
2.6 神经网络自编码器三大特点
1、自动编码器是数据相关的(data-specific 或 data-dependent),这意味着自动编码器只能压缩那些与训练数据类似的数据。例如人脸训练数据只能预测人脸相关,不能预测花草
2、自动编码器是有损的,意思是解压缩的输出与原来的输入相比是退化的
3、自动编码器是从数据样本中自动学习的,这意味着很容易对指定类的输入训练出一种特定的编码器,而不需要完成任何新工作。
2.7 自编码器的应用
2.7.1 特征降维
从直观上来看,自动编码器可以用于特征降维,类似主成分分析PCA,但是其相比PCA其性能更强,这是由于神经网络模型可以提取更有效的新特征
2.7.2 特征提取
自动编码器学习到的新特征可以送入有监督学习模型中,所以自动编码器可以起到特征提取器的作用
实例:图片的压缩及还原
为什么要进行压缩:1、保证输入图片的大小一致;2、减少输入数据,提取图片中最具代表性的特征
3、基于对比损失的方法-Word2vec
对比损失:构建正负样本,最大化正样本之间的相似度,最小化负样本之间的相似度
详细解释见NLP词嵌入章节
二、图信号处理(graph Signal Processing,GSP)
1、图信号基本定义
是离散信号处理(Discrete Signal Processing,DSP)在图信号领域的应用
图信号:给定图G=(V,E),V表示图中的节点集合,假设其长度为N,图信号则是一种描述V→R的映射,表示成向量的形式:x=[x1,x2,···,xn]^T,其中xi表示的是节点vi上的信号强度。
蓝色代表信号强度,这里的图信号只有一个通道,实际的图节点可能有很多通道
2、图的拉普拉斯矩阵
2.1 概述
拉普拉斯特征映射(Laplacian Eigenmaps)是一种不太常见的降维算法,它看问题的角度和常见的降维算法不太相同,是从局部的角度去构建数据之间的关系
拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构
2.2 拉普拉斯矩阵(Laplacian matrix))定义
也称为基尔霍夫矩阵, 是表示图的一种矩阵。
给定一个有n个顶点的图G=(V,E) ,其拉普拉斯矩阵被定义为:L=D-W
其中,D是图G的度矩阵,A是图G的邻接矩阵。L中的元素可定义为
2.3 拉普拉斯矩阵归一化方式
1)对称归一化的拉普拉斯矩阵(Symmetric Normalized Laplacian Matrix)
2)对称归一化的拉普拉斯矩阵(Symmetric Normalized Laplacian Matrix)
2.4 性质
- L是对称的
- L是半正定矩阵(每个特征值λ i ≥ 0 )
- L的每一行每一列的和为0
- L的最小特征值为0
2.5 示例
3、图傅里叶变换
3.1 目标
将图信号由空域视角转换到频域视角
待补充
4、图滤波器
4.1 定义
对给定图信号的频谱中各个频率分量的强度进行增强或衰减的操作
4.2 性质
- 线性关系
- 滤波操作是顺序无关的
- 如果h(λ)≠0,该滤波操作是可逆的