What Do Neural Networks Learn When Trained With Random Labels?
When Trained With Random Labels?)
内容整理自 What Do Neural Networks Learn
When Trained With Random Labels?.
Abstract
- an alignment between the principal components of network parameters and data takes place when training with random labels.神经网络参数会和数据的主要成分进行对齐
Introduction
- 过参数化:网络有较多的参数。 motivation:
over-parameterization helps DNNs to interpolate any set of random labels有利于插入任何一组数据,但是DNN从中学习到了什么?
其他工作:随机标签的负面作用(噪声)
作者工作:随机标签下学到何种数据分布? - contribution:
- 随机标签的影响(积极+消极)
- 发现发生参数与数据的对齐。
1.1 example
- upstream and downstream: 同规模的上游随机训练可以加快下游任务
- the principal components of weights at the first layer are aligned with the principal components of data.神经网络第一层会与数据集的主成分对齐
Covariance matrix alignment between network parameters and data
2.1 Preliminaries
- 定义对齐(Alignment)
A symmetric matrix A is said to be aligned with a symmetric matrix B if each eigenspace of B is a subset of an eigenspace of A.即B的每个特征空间都被A包含
2.2 Alignment for centered Gaussian inputs
-
对于各向同性噪声,
(1) E[w] = 0
(2) Σw = E[w · wT ]权重与数据Σx 的协方差矩阵对齐 -
For two positive definite matrices A, B, the “misalignment” M(A, B) is defined as
(个人理解即不对齐的程度)
作者给出实验验证-
不同情况下misalignment的结果
可以发现使用特征向量时,随机标签与真实标签的misalignment几乎是一致的,且处于较低的水平,且随机偏差misalignment升高。说明不管标签如何,第一层过滤器与数据之间是有对齐的
-
vw为权重特征向量,vx为数据特征向量左:二者基本一致
右:vx与某个特征向量加权后可以得到vw
-
-
2.2节作者具体说明了对齐效应是什么,并给出一定的实验可视化演示和对比,很容易联想到神经网络的浅层学习到的知识是以数据特征为主的知识,
2.3 Mapping of eigenvalues(没太理解具体内容)
- 对于 Σx,设vi长度为1,特征值为
σ
\sigma
σi2.如果 Σw 与 Σx 对齐,vi也是 Σw 的特征向量,且可以计算得到其特征向量
- 定义从 Σx 到 Σw 的传递函数f:
- 定义了数据特征值 σ \sigma σi2和特征向量vi转化为权重特征的过程
2.4 Covariance alignment and eigenvalue mapping explains positive transfer experimentally && Deeper layers
- 给定一个网络的训练数据 -> 第一层网络的二阶统计数据
- 深层神经网络可以迁移此方法进行迭代(在123层表现较好)