机器学习技法 之 深度学习(Deep Learning)

前面学习了基础神经网络算法,可以得知神经网络基本结构中:神经元(Node)的个数,层数(Layer),以及激活函数的类型和神经元之间的连接形式都是可以自己选择的,这就导致结构的多样性,那么如何选择呢?当然是视情况而定了。

浅层与深层(Shallow versus Deep Neural Networks)

浅(shallow)层以为着较少(few)的隐含层(hidden layers)。其意味着:

  • 训练效率高
  • 简单的结构设计
  • 理论上如果神经元足够多,那么就足够强,拟合任何问题

深层(deep)层以为着较少(few)的隐含层(hidden layers)。其意味着:

  • 训练时间消耗大
  • 复杂的结构设计
  • 非常有力,可以拟合任何问题
  • 更有意义

对于深度神经网络来说,由于层数较多,那每一层的任务相对来说比较简单,许多层完成一个复杂任务。并且常常用于一些使用原始特征比较困难的学习任务。

深度学习的挑战和关键技术(Challenges and Key Techniques)

difficult structural decisions:
结构设计困难

  • subjective with domain knowledge: like convolutional NNet for
    images
    具有主观性,一般会结合专业知识进行设计,像卷积神经网络

high model complexity:
高模型复杂度

  • no big worries if big enough data
    如果数据不够多会导致过拟合
  • regularization towards noise-tolerant: like
    对噪声的容忍度提高
    • dropout (tolerant when network corrupted),对网络出现问题导致噪声的容忍度
    • denoising (tolerant when input corrupted),对输入噪声的容忍度

hard optimization problem:
很难优化

  • careful initialization to avoid bad local minimum: called pre-training
    仔细选择初始值以防止不好的局部最优解,叫做预训练

huge computational complexity (worsen with big data):
高计算复杂度

  • novel hardware/architecture: like mini-batch with GPU
    随着硬件的更新换代,这一问题得到缓和。

林老师认为这几条中初始化和正则化属于比较关键的技术。

二阶段深度学习框架(A Two-Step Deep Learning Framework)

第一阶段是:

 for  ℓ = 1 , … , L .  pre-train  { w i j ( ℓ ) }  assuming  w ∗ ( 1 ) , … w ∗ ( ℓ − 1 )  fixed  \text { for } \ell = 1 , \ldots , L . \text { pre-train } \left\{ w _ { i j } ^ { ( \ell ) } \right\} \text { assuming } w _ { * } ^ { ( 1 ) } , \ldots w _ { * } ^ { ( \ell - 1 ) } \text { fixed }  for =1,,L. pre-train {wij()} assuming w(1),w(1) fixed 

什么意思呢,简单来说就是,先获得第一层的权重值,然后固定第一层的权重值来获得第二层的权重值,依次执行到最后一层。这一过程叫做预训练(pre-train)。可以看出这是一个多输入多输出问题(MIMO),但是丝毫不影响神经网络的训练,这是由于反向传播算法的实现,如果有不懂的话可以看前一篇《机器学习技法之神经网络》

在这里插入图片描述
第二阶段是:

 train with backprop on pre-trained NNet to fine-tune all  { w i j ( ℓ ) } \text { train with backprop on pre-trained NNet to fine-tune all } \left\{ w _ { i j } ^ { ( \ell ) } \right\}  train with backprop on pre-trained NNet to fine-tune all {wij()}

即以预训练获取的权值作为初始值,然后使用反向传播算法进行迭代优化。

自编码器(Autoencoder)

信息保留式编码(Information-Preserving Encoding)

实际上每一层神经元的特征转换类似于编码过程(或者说转换表现形式),如果经过编码后,表现形式改变(different representation),但是代表的信息不变(same info)的话,便将之称为信息保留式编码(Information-Preserving Encoding)。所以经过信息保留式编码后的可以准确的解码为原来的表现形式。

那么现在的想法就是使用这种编码形式实现预训练,获取初始权值。

信息保留式神经网络(Information-Preserving Neural Net)

假设当前需求的神经网络只有一层隐含层,那么这种编码形式的神经网络结构图如下:
在这里插入图片描述
这种以 d − d ~ − d  NNet with goal  g i ( x ) ≈ x i d - \tilde { d } - d \text { NNet with goal } g _ { i } ( \mathbf { x } ) \approx x _ { i } dd~d NNet with goal gi(x)xi 为结构形式的神经网络叫做自编码器(Autoencoder)。实际上就是在学习一个逼近恒等(自身)的函数(approximate identity function),identity 意思为将某个东西对应到它本身。

那么这次称编码权重(encoding weights)为: w i j ( 1 ) \mathbf{w}^{(1)}_{ij} wij(1),解码权重(decoding weights)为: w i j ( 2 ) \mathbf{w}^{(2)}_{ij} wij(2)

逼近恒等函数(Approximating Identity Function)

这种函数的意义是:这种逼近过程会使用到(仰赖)一些已获得样本数据(observed data)中的隐藏结构(hidden structures),

对于监督学习,这种潜在的结构(hidden structure,比如说进行文字识别时学到的笔画)可以用于作为合理的特征转换 Φ ( x ) \Phi(\mathbf{x}) Φ(x)( reasonable transform)。这种潜在结构等于是原数据的信息表示(‘informative’ representation)。

对于无监督学习,自编码器更像是在学习数据的类型表示(‘typical’ representation of data)。在密度估计(density estimation)中,如果这类数据越多,那么这类数据的逼近越好,也就是自编码器的误差越少。在异常检测(outlier detection)中,如果自编码器的误差很小,那么代表该数据属于原来的训练数据。

所以说自编码器(autoencoder)是通过逼近恒等函数实现的一种表示学习(representation-learning through approximating identity function)。

基本的自编码器(Basic Autoencoder)

Basic Autoencoder 的表现形式为:

d − d ~ − d  NNet with error function  ∑ i = 1 d ( g i ( x ) − x i ) 2 d - \tilde { d } - d \text { NNet with error function } \sum _ { i = 1 } ^ { d } \left( g _ { i } ( \mathbf { x } ) - x _ { i } \right) ^ { 2 } dd~d NNet with error function i=1d(gi(x)xi)2

有以下特点:

  1. backprop easily applies; shallow and easy to train
    反向传播算法容易应用,隐含层少易于训练
  2. usually d > d ~ d > \tilde { d } d>d~ : compressed representation
    一般情况下隐含层神经元个数小于输入(或输出),从而达到一种数据压缩的效果
  3. 数据的格式为: { ( x 1 , y 1 = x 1 ) , ( x 2 , y 2 = x 2 ) , … , ( x N , y N = x N ) } \left\{ \left( \mathbf { x } _ { 1 } , \mathbf { y } _ { 1 } = \mathbf { x } _ { 1 } \right) , \left( \mathbf { x } _ { 2 } , \mathbf { y } _ { 2 } = \mathbf { x } _ { 2 } \right) , \ldots , \left( \mathbf { x } _ { N } , \mathbf { y } _ { N } = \mathbf { x } _ { N } \right) \right\} {(x1,y1=x1),(x2,y2=x2),,(xN,yN=xN)},所以也被用于无监督学习(categorized as unsupervised learning technique)。
  4. 有时候加入约束条件 w i j ( 1 ) = w j i ( 2 ) w _ { i j } ^ { ( 1 ) } = w _ { j i } ^ { ( 2 ) } wij(1)=wji(2) 作为一种正则化,但是在计算梯度时会更复杂。

其中 w i j ( 1 ) w _ { i j } ^ { ( 1 ) } wij(1) 用作预训练权重。

那么使用自编码器进行预训练的过程为:

第一阶段是:

 for  ℓ = 1 , … , L .  pre-train  { w i j ( ℓ ) }  assuming  w ∗ ( 1 ) , … w ∗ ( ℓ − 1 )  fixed  \text { for } \ell = 1 , \ldots , L . \text { pre-train } \left\{ w _ { i j } ^ { ( \ell ) } \right\} \text { assuming } w _ { * } ^ { ( 1 ) } , \ldots w _ { * } ^ { ( \ell - 1 ) } \text { fixed }  for =1,,L. pre-train {wij()} assuming w(1),w(1) fixed 
在这里插入图片描述
 by training basic autoencoder on  { x n ( ℓ − 1 ) }  with  d ~ = d ( ℓ ) \text { by training basic autoencoder on } \left\{ \mathbf { x } _ { n } ^ { ( \ell - 1 ) } \right\} \text { with } \tilde { d } = d ^ { ( \ell ) }  by training basic autoencoder on {xn(1)} with d~=d()

实际上就是一层一层的训练,这里有一个疑问为什么不一起训练,是复杂度问题吗?

第二阶段是:

 train with backprop on pre-trained NNet to fine-tune all  { w i j ( ℓ ) } \text { train with backprop on pre-trained NNet to fine-tune all } \left\{ w _ { i j } ^ { ( \ell ) } \right\}  train with backprop on pre-trained NNet to fine-tune all {wij()}

当然自编码的实现由正则化规则和不同的结构( different architectures and regularization schemes)而丰富多样。

降噪自编码器(Denoising Autoencoder)

下面学习一种新的正则化技术。

过拟合的成因一般有三种:数据量过小,噪声过大,算法过于强大。

那么现在提出一种降噪模型,什么意思呢?

将下述形式的样本数据(将原数据和人工噪声混合数据作为输入,将原数据作为输出)输入自编码器中:

{ ( x ~ 1 , y 1 = x 1 ) , ( x ~ 2 , y 2 = x 2 ) , … , ( x ~ N , y N = x N ) }  where  x ~ n = x n +  artificial noise  \begin{array} { c } \left\{ \left( \tilde { \mathbf { x } } _ { 1 } , \mathbf { y } _ { 1 } = \mathbf { x } _ { 1 } \right) , \left( \tilde { \mathbf { x } } _ { 2 } , \mathbf { y } _ { 2 } = \mathbf { x } _ { 2 } \right) , \ldots , \left( \tilde { \mathbf { x } } _ { N } , \mathbf { y } _ { N } = \mathbf { x } _ { N } \right) \right\} \\ \text { where } \tilde { \mathbf { x } } _ { n } = \mathbf { x } _ { n } + \text { artificial noise } \end{array} {(x~1,y1=x1),(x~2,y2=x2),,(x~N,yN=xN)} where x~n=xn+ artificial noise 

训练出模型:

g ( x ~ ) ≈ x g ( \tilde { x } ) \approx x g(x~)x

人工的噪声或者说 hint(例如旋转图像,缩小图像) 常常用于神经网络或者其他模型。

主成分分析(Principal Component Analysis)

线性自编码器假设函数(Linear Autoencoder Hypothesis)

对于一个线性神经网络模型来说,这里则不需要 tanh 函数了,也就是说

h k ( x ) = ∑ j = 0 d ~ w j k ( 2 ) ( ∑ i = 0 d w i j ( 1 ) x i ) h _ { k } ( \mathbf { x } ) = \sum _ { j = 0 } ^ { \tilde { d } } w _ { j k } ^ { ( 2 ) } \left( \sum _ { i = 0 } ^ { d } w _ { i j } ^ { ( 1 ) } x _ { i } \right) hk(x)=j=0d~wjk(2)(i=0dwij(1)xi)

现在考虑三个特殊条件:

  1. 为了简化,先不考虑 x 0 x_0 x0,让输入和输出个数一样 ,也就是

h k ( x ) = ∑ j = 0 d ~ w j k ( 2 ) ( ∑ i = 1 d w i j ( 1 ) x i ) h _ { k } ( \mathbf { x } ) = \sum _ { j = 0 } ^ { \tilde { d } } w _ { j k } ^ { ( 2 ) } \left( \sum _ { i = 1 } ^ { d } w _ { i j } ^ { ( 1 ) } x _ { i } \right) hk(x)=j=0d~wjk(2)(i=1dwij(1)xi)

  1. 假设 d ~ < d \tilde { d } < d d~<d,以确保非零解(non-trivial solution),因为当 d ~ > = d \tilde { d } >= d d~>=d 可以想象出权重向量是非常稀疏的。

  2. 加入前面提及的正则化约束条件 w i j ( 1 ) = w j i ( 2 ) = w i j w _ { i j } ^ { ( 1 ) } = w _ { j i } ^ { ( 2 ) } = w _ { i j } wij(1)=wji(2)=wij

h k ( x ) = ∑ j = 0 d ~ w k j ( ∑ i = 1 d w i j x i ) h _ { k } ( \mathbf { x } ) = \sum _ { j = 0 } ^ { \tilde { d } } w _ { k j } \left( \sum _ { i = 1 } ^ { d } w _ { i j } x _ { i } \right) hk(x)=j=0d~wkj(i=1dwijxi)

同时可以获取权重矩阵 W = [ w i j ]  of size  d × d ~ \mathrm { W } = \left[ w _ { i j } \right] \text { of size } d \times \tilde { d } W=[wij] of size d×d~,那么线性自编码器的假设函数为:

h ( x ) = W W T x \mathbf { h } ( \mathbf { x } ) = \mathrm { WW } ^ { T } \mathbf { x } h(x)=WWTx

线性自编码器的误差函数(Linear Autoencoder Error Function)

可以根据平方误差写出误差函数:

E i n ( h ) = E i n ( W ) = 1 N ∑ n = 1 N ∥ x n − W W T x n ∥ 2  with  d × d ~  matrix  W E _ { \mathrm { in } } ( \mathbf { h } ) = E _ { \mathrm { in } } ( \mathrm { W } ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left\| \mathbf { x } _ { n } - \mathrm { WW } ^ { T } \mathbf { x } _ { n } \right\| ^ { 2 } \text { with } d \times \tilde { d } \text { matrix } \mathrm { W } Ein(h)=Ein(W)=N1n=1NxnWWTxn2 with d×d~ matrix W

但是这里有一点,需要计算关于 W \mathrm { W } W 的四次多项式。

这里用到一些线性代数的知识,特征分解(eigen-decompose):

W W T = V Γ V T \mathrm { WW } ^ { T } = \mathrm { V } \Gamma \mathrm { V } ^ { T } WWT=VΓVT

W \mathrm { W } W 是正规矩阵的充要条件是:存在酉矩阵,使得 W \mathrm { W } W 酉相似于对角矩阵

其中

  1. V \mathrm { V } V d × d d \times d d×d 的正交(orthogonal)矩阵(又叫酉矩阵),并且 V V T = V T V = I d \mathrm { VV } ^ { T } = \mathrm { V } ^ { T } \mathrm { V } = \mathrm { I } _ { d } VVT=VTV=Id
  2. Γ \Gamma Γ 为对角矩阵,且只有 ≤ d ~ \leq \tilde d d~ 个非零项。

W W T x n = V Γ V T x n \mathrm { WW } ^ { T } \mathbf { x } _ { n } = \mathrm { V } \Gamma \mathrm { V } ^ { T } \mathbf { x } _ { n } WWTxn=VΓVTxn 中的各个参数的物理意义:

  1. V T \mathrm { V } ^ { T } VT :将数据 x n \mathbf { x } _ { n } xn 进行坐标转换(旋转和镜像)。
  2. Γ \Gamma Γ :令上一步获取的矩阵中 ≥ d − d ~ \geq d -\tilde d dd~ 个参数为零,并缩放其他参数。
  3. V \mathrm { V } V :将上一步获取的数据,根据系数和基向量进行坐标重构(反旋转和反镜像)。

那么根据这个物理意义可以写出如下表示:

x n = V I V T x n \mathbf { x } _ { n } = \mathrm { VIV } ^ { T } \mathbf { x } _ { n } xn=VIVTxn

也就是说只进行旋转和反旋转,并不对参数进行设成零或放缩操作。

那么误差函数最小化问题便转换为了 Γ \Gamma Γ V \mathrm { V } V 的优化问题。

也就是说:

min ⁡ V min ⁡ Γ 1 N ∑ n = 1 N ∥ VIV ⁡ T x n ⏟ x n − V ⁡ Γ V T x n ⏟ W W ⊤ x n ∥ 2 \min _ { \mathbf { V } } \min _ { \Gamma } \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \| \underbrace { \operatorname { VIV } ^ { T } \mathbf { x } _ { n } } _ { \mathbf { x } _ { n } } - \underbrace { \operatorname { V } \Gamma \mathbf { V } ^ { T } \mathbf { x } _ { n } } _ { \mathbf { W } \mathbf { W } ^ { \top } \mathbf { x } _ { n } } \| ^ { 2 } VminΓminN1n=1Nxn VIVTxnWWxn VΓVTxn2

直观上来说由于 V \mathrm { V } V 只是做了一个旋转动作,所以并不会影响向量的长度,所以将其拿掉。

min ⁡ V min ⁡ Γ 1 N ∑ n = 1 N ∥ ( I − Γ ) V T x n ∥ 2 \min _ { \mathbf { V } } \min _ { \Gamma } \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \| \left( I - \Gamma \right) {\mathbf { V } ^ { T } \mathbf { x } _ { n } } \| ^ { 2 } VminΓminN1n=1N(IΓ)VTxn2

先不考虑 V \mathrm { V } V,可以改写为:

min ⁡ Γ ∑ ∥ ( I − Γ ) (  some vector  ) ∥ 2 \min _ { \Gamma } \sum \| ( \mathrm { I } - \Gamma ) ( \text { some vector } ) \| ^ { 2 } Γmin(IΓ)( some vector )2

由于 I − Γ \mathrm { I }-\Gamma IΓ 是一个对角矩阵,那么为了满足上述优化问题,那么该对角矩阵应该有尽可能多的零值。由于 Γ \Gamma Γ 中有 ≤ d ~ \leq \tilde d d~ 非零值,那么也就是说最多有 d ~ \tilde d d~ 个 1 使得 I − Γ \mathrm { I }-\Gamma IΓ 零值最多。

那么现在先假设

Γ = [ I d ~ 0 0 0 ] \Gamma = \left[ \begin{array} { c c } \mathrm { I } _ { \tilde { d} } & 0 \\ 0 & 0 \end{array} \right] Γ=[Id~000]

然后在求取 V \mathrm { V } V 的值来满足这一条件,那么根据 I − Γ = [ 0 0 0 I d − d ~ ] \mathrm { I }-\Gamma = \left[ \begin{array} { c c } 0 & 0 \\ 0 & \mathbf { I } _ { d - \tilde { d } } \end{array} \right] IΓ=[000Idd~] 的最优解将优化问题改为:

min ⁡ V ∑ n = 1 N ∥ [ 0 0 0 I d − d ~ ] V T x n ∥ 2 ≡ max ⁡ v ∑ n = 1 N ∥ [ I α ~ 0 0 0 ] V T x n ∥ 2 \min _ { \mathbf { V } } \sum _ { n = 1 } ^ { N } \left\| \left[ \begin{array} { c c } 0 & 0 \\ 0 & \mathbf { I } _ { d - \tilde { d } } \end{array} \right] \mathbf { V } ^ { T } \mathbf { x } _ { n } \right\| ^ { 2 } \equiv \max _ { \mathbf { v } } \sum _ { n = 1 } ^ { N } \left\| \left[ \begin{array} { c c } \mathbf { I } _ { \tilde { \alpha } } & 0 \\ 0 & 0 \end{array} \right] \mathbf { V } ^ { T } \mathbf { x } _ { n } \right\| ^ { 2 } Vminn=1N[000Idd~]VTxn2vmaxn=1N[Iα~000]VTxn2

首先假设 d ~ = 1 \tilde d = 1 d~=1,那么只有 V T \mathrm { V }^{T} VT 的第一行 v T \mathrm{v}^T vT 被用到了:

max ⁡ v ∑ n = 1 N v T x n x n T v  subject to  v T v = 1 \max _ { \mathbf { v } } \sum _ { n = 1 } ^ { N } \mathbf { v } ^ { T } \mathbf { x } _ { n } \mathbf { x } _ { n } ^ { T } \mathbf { v } \text { subject to } \mathbf { v } ^ { T } \mathbf { v } = 1 vmaxn=1NvTxnxnTv subject to vTv=1

那么最优解用拉格朗日乘数法可以表示为:

∑ n = 1 N x n x n T v = λ v \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } \mathbf { x } _ { n } ^ { T } \mathbf { v } = \lambda \mathbf { v } n=1NxnxnTv=λv

可以看出 v \mathbf { v } v X T X X ^ { T } X XTX 的一个特征向量,其中 X T = [ x 1 , ⋯   , x N ] X^T = [\mathbf x_1,\cdots,\mathbf x_N] XT=[x1,,xN]。那么最优的 v \mathbf { v } v 应该是最大特征值对应的特征向量。

那么对于任意的 d ~ \tilde d d~ { v j } j = 1 d ~ \left\{ \mathbf { v } _ { j } \right\} _ { j = 1 } ^ { \tilde { d} } {vj}j=1d~ 应该是 Top d ~ \tilde d d~ 特征值对于的特征向量,而 w j \mathbf { w }_j wj 的组成基本上就是这些特征向量,也就是说:

 optimal  { w j } = { v j  with  [ [ γ j = 1 ] ] } =  top eigenvectors  \text { optimal } \left\{ \mathbf { w } _ { j } \right\} = \left\{ \mathbf { v } _ { j } \text { with } \left[ \kern-0.15em\left[ \gamma _ { j } = 1 \right] \kern-0.15em \right]\right\} = \text { top eigenvectors }  optimal {wj}={vj with [[γj=1]]}= top eigenvectors 

线性自编码器:实际上就是投影到这些与数据 { x n } \left\{ \mathbf { x } _ { n } \right\} {xn} 最匹配的几个正交向量。

线性自编码器的本质就是,向这些垂直的向量上做投影后,保证它们的和最大。

 maximize  ∑ (  maginitude after projection  ) 2 \text { maximize } \sum ( \text { maginitude after projection } ) ^ { 2 }  maximize ( maginitude after projection )2

实现流程为:

 1. calculate  d ~  top eigenvectors  w 1 , w 2 , … , w d ~  of  X T X  2. return feature transform  Φ ( x ) = W ( x ) \begin{array} { l }\qquad \text { 1. calculate } \tilde { d } \text { top eigenvectors } \mathbf { w } _ { 1 } , \mathbf { w } _ { 2 } , \ldots , \mathbf { w } _ { \tilde { d } } \text { of } \mathbf { X } ^ { T } \mathbf { X } \\ \qquad \text { 2. return feature transform } \mathbf { \Phi } ( \mathbf { x } ) = \mathbf { W } ( \mathbf { x } ) \end{array}  1. calculate d~ top eigenvectors w1,w2,,wd~ of XTX 2. return feature transform Φ(x)=W(x)

主成分分析(PCA)的实现与之类似,其本质是做完投影后再这些投影上的变化量(variance)最大,也就是说具有多样性,即找出那些差异性较大的特征,也就是相关性较小的特征将被留下,如果两个特征的相关性较大那么尽可能只留其中一个:

 maximize  ∑ (  variance after projection  ) \text { maximize } \sum ( \text { variance after projection } )  maximize ( variance after projection )

所以 PCA 经常用于降维。

PCA的具体实现流程 :

 1. let  x ‾ = 1 N ∑ n = 1 N x n ,  and let  x n ← x n − x ‾  2. calculate  d ~  top eigenvectors  w 1 , w 2 , … , w d ~  of  X T X  3. return feature transform  Φ ( x ) = W ( x − x ‾ ) \begin{array} { l }\qquad \text { 1. let }\overline { \mathbf { x } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } , \text { and let } \mathbf { x } _ { n } \leftarrow \mathbf { x } _ { n } - \overline { \mathbf { x } } \\ \qquad \text { 2. calculate } \tilde { d } \text { top eigenvectors } \mathbf { w } _ { 1 } , \mathbf { w } _ { 2 } , \ldots , \mathbf { w } _ { \tilde { d } } \text { of } \mathbf { X } ^ { T } \mathbf { X } \\ \qquad \text { 3. return feature transform } \mathbf { \Phi } ( \mathbf { x } ) = \mathbf { W } ( \mathbf { x } - \overline { \mathbf { x } } ) \end{array}  1. let x=N1n=1Nxn, and let xnxnx 2. calculate d~ top eigenvectors w1,w2,,wd~ of XTX 3. return feature transform Φ(x)=W(xx)

特征值和特征向量的意义:图片压缩

以图片压缩为例,比如说,有下面这么一副 512 × 512 512\times512 512×512 的图片(方阵才有特征值,所以找了张正方形的图):

在这里插入图片描述

这个图片可以放到一个矩阵里面去,就是把每个像素的颜色值填入到一个 512 × 512 512\times512 512×512 的 A 矩阵中。

加入该矩阵可以对角化的话,那么可以做如下特征分解(谱分解):

A = P Λ P − 1 A = P \Lambda P ^ { - 1 } A=PΛP1

其中, Λ \Lambda Λ 是对角阵,对角线上是从大到小排列的特征值。

Λ \Lambda Λ 中只保留前面50个的特征值(也就是最大的50个,其实也只占了所有特征值的百分之十),其它的都填0,重新计算矩阵后,恢复为下面这样的图像:
在这里插入图片描述

效果还可以,其实一两百个特征值之和可能就占了所有特征值和的百分之九十了,其他的特征值都可以丢弃了。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
第⼆二章 机器器学习基础 2.1 各种常⻅见算法图示 2.2 监督学习、⾮非监督学习、半监督学习、弱监督学习? 2.3 监督学习有哪些步骤 2.4 多实例例学习? 2.5 分类⽹网络和回归的区别? 2.6 什什么是神经⽹网络? 2.7 理理解局部最优与全局最优 2.8 分类算法 2.8.1 常⽤用分类算法的优缺点? 2.8.2 正确率能很好的评估分类算法吗? 2.8.3 分类算法的评估⽅方法? 2.8.4 什什么样的分类器器是最好的? 2.9 逻辑回归 2.9.1 理理解逻辑回归 2.9.2 逻辑回归与朴素⻉贝叶斯有什什么区别? 2.9.3线性回归与逻辑回归的区别?(贡献者:⻩黄钦建-华南理理⼯工⼤大学) 2.10 代价函数 2.10.1 为什什么需要代价函数? 2.10.2 代价函数作⽤用原理理 2.10.3 为什什么代价函数要⾮非负? 2.10.4 常⻅见代价函数? 2.10.5 为什什么⽤用交叉熵代替⼆二次代价函数 2.11 损失函数 2.11.1 什什么是损失函数? 2.11.2 常⻅见的损失函数 2.11.3 逻辑回归为什什么使⽤用对数损失函数? 2.11.4 对数损失函数是如何度量量损失的? 2.12 梯度下降 2.12.1 机器器学习中为什什么需要梯度下降? 2.12.2 梯度下降法缺点? 2.12.3 梯度下降法直观理理解? 2.12.4 梯度下降法算法描述? 2.12.5 如何对梯度下降法进⾏行行调优? 2.12.7 随机梯度和批量量梯度区别? 2.12.8 各种梯度下降法性能⽐比较 2.13 计算图的导数计算图解? 2.14 线性判别分析(LDA) 2.14.1 线性判别分析(LDA)思想总结 2.14.2 图解LDA核⼼心思想 2.14.3 ⼆二类LDA算法原理理? 2.14.4 LDA算法流程总结? 2.14.5 LDA和PCA区别? 2.14.6 LDA优缺点? 2.15 主成分分析(PCA) 2.15.1 主成分分析(PCA)思想总结 2.15.2 图解PCA核⼼心思想 2.15.3 PCA算法推理理 2.15.4 PCA算法流程总结 2.15.5 PCA算法主要优缺点 2.15.6 降维的必要性及⽬目的 2.15.7 KPCA与PCA的区别? 2.16 模型评估 2.16.1 模型评估常⽤用⽅方法? 2.16.2 机器器学习中的Bias,Error和Variance有什什么区别和联系? 2.16.3 经验误差与泛化误差 2.16.4 图解⽋欠拟合、过拟合 2.16.5 如何解决过拟合与⽋欠拟合? 2.16.6 交叉验证的主要作⽤用? 2.16.7 k折交叉验证? 2.16.8 混淆矩阵 2.16.9 错误率及精度 2.16.10 查准率与查全率 2.16.11 ROC与AUC 2.16.12 如何画ROC曲线? 2.16.13 如何计算TPR,FPR? 2.16.14 如何计算Auc? 2.16.15 为什什么使⽤用Roc和Auc评价分类器器? 2.16.17 直观理理解AUC 2.16.18 代价敏敏感错误率与代价曲线 2.16.19 模型有哪些⽐比较检验⽅方法 2.16.20 偏差与⽅方差 2.16.21为什什么使⽤用标准差? 2.16.22点估计思想 2.16.23 点估计优良性原则? 2.16.24 点估计、区间估计、中⼼心极限定理理之间的联系? 2.16.25 类别不不平衡产⽣生原因? 2.16.26 常⻅见的类别不不平衡问题解决⽅方法 2.17 决策树 2.17.1 决策树的基本原理理 2.17.2 决策树的三要素? 2.17.3 决策树学习基本算法 2.17.4 决策树算法优缺点 2.17.5熵的概念以及理理解 2.17.6 信息增益的理理解 2.17.7 剪枝处理理的作⽤用及策略略? 2.18 ⽀支持向量量机 2.18.1 什什么是⽀支持向量量机 2.18.2 ⽀支持向量量机解决的问题? 2.18.3 核函数作⽤用? 2.18.4 对偶问题 2.18.5 理理解⽀支持向量量回归 2.18.6 理理解SVM(核函数) 2.18.7 常⻅见的核函数有哪些? 2.18.8 软间隔与正则化 2.18.9 SVM主要特点及缺点? 2.19 ⻉贝叶斯 2.19.1 图解极⼤大似然估计 2.19.2 朴素⻉贝叶斯分类器器和⼀一般的⻉贝叶斯分类器器有什什么区别? 2.19.3 朴素与半朴素⻉贝叶斯分类器器 2.19.4 ⻉贝叶斯⽹网三种典型结构 2.19.5 什什么是⻉贝叶斯错误率 2.19.6 什什么是⻉贝叶斯最优错误率 2.20 EM算法解决问题及实现流程 2.21 降维和聚类 2.21.1 为什什么会产⽣生维数灾难? 2.21.2 怎样避免维数灾难 2.21.3 聚类和降维有什什么区别与联系? 2.21.4 四种聚类⽅方法之⽐比较 2.21.5 SOM聚类算法 2.21.6 FCM聚类算法 2.22 GBDT和随机森林林的区别 2.23 ⼤大数据与深度学习之间的关系

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FlameAlpha

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值