Paper Reading IsoBN

最新推荐文章于 2023-01-26 15:59:52 发布

SUFEHeisenberg

最新推荐文章于 2023-01-26 15:59:52 发布

阅读量160

点赞数

分类专栏： NLP Deep Learning Paper Reading

本文链接：https://blog.csdn.net/weixin_43557139/article/details/116431460

版权

NLP 同时被 3 个专栏收录

25 篇文章 1 订阅

订阅专栏

Paper Reading

16 篇文章 0 订阅

订阅专栏

Deep Learning

13 篇文章 0 订阅

订阅专栏

Paper Reading:IsoBN

IsoBN: Fine-Tuning BERT with Isotropic Batch Normalization

任翔组工作. AAAI21. Github(Null). Paper.

1. Intuition

BERT embedding存在各向异性的问题，主要表现为1. 高标准差 2. 不同维度间的高相关性。不利于收敛速度和泛化能力。

解决思路：whitening & batch normalization (Ioffe and Szegedy, ICML 2015)

对PTM在不同数据集上的embedding中不同维度间的相关系数：

可视化分析：

相关系数矩阵基本为块对角矩阵。即是一个方阵的块矩阵，主对角的块是方阵，所有非对角的块是零矩阵。
BERT更易形成大块的聚类，RoBERTa形成的聚类块更小。

PTM在不同数据集上embedding的标准差分布:

可视化分析：

不同模型在不同数据集标准差分布差异很大。
RoBERTa标准差分布相对BERT更为平稳，变化范围较小。

2. 算法实现

2.1 Intuition

白化： $\widehat{\boldsymbol{h}}=\Sigma^{-\frac{1}{2}}\left(\boldsymbol{h}-\boldsymbol{\mu} \cdot \mathbf{1}^{T}\right)$ ， $\Sigma$ 是输入 $h$ 的协方差矩阵

批标准化： $\widehat{\boldsymbol{h}}=\Lambda^{-1}\left(\boldsymbol{h}-\boldsymbol{\mu} \cdot \mathbf{1}^{T}\right)$ ， $\Lambda=diag(\sigma_1,\cdots,\sigma_d)$ 是输入 $h$ 每一位度的标准差。

括号前面的就是scaling parameter，其数值表征着放缩力度。

解决方法就是通过聚类将其转化为块对角线矩阵。作者认为，同一簇内维度的绝对相关系数接近1，而来自不同簇的维度几乎不相关。

而所谓的block-diagonal binary matrix 的scaling parameter肯定也是从聚类后的结果出发得到。

2.2 算法步骤

首先input embedding $h\in\R^{n\times d}$ 的维度进行聚类转化为 $h^{\prime}\in\R^{n\times m}$ .
计算 $u_B=\frac{1}{m}\sum_{i=1}^m h_i$ ， $\sigma_B=\sqrt{\frac{1}{m}\sum_{i=1}^m(h_i-\mu_B)}$ ， $\sum_B=\frac{1}{m}(h-\mu_B)^T(h-\mu_B)$ .
更新时求移动平均值 $\sigma=\sigma+\alpha(\sigma_B-\sigma)$ ， $\sum=\sum+\alpha(\sum_B-\sum)$ （每个batch都从上一个batch更新迭代。）
计算 $\rho=\sum/(\sigma\sigma^T)$
计算 $\left|\mathcal{G}_{g(i)}\right| \stackrel{\sim}{\longrightarrow} \gamma_{i}=\sum_{j=1}^{d} \rho_{i j}^{2}$ （ $\rho$ 是对称阵， $\sum \rho_i=\sum \rho_j$ ）
计算 $\theta_i=(\sigma_i\cdot\gamma_i+\epsilon)^{-\beta}$ ，进行白化操作。
计算 $\bar{\theta}=\frac{\sum_{i=1}^d\sigma_i^2}{\sum_{i=1}^d\sigma_i^2\theta^2_i}\cdot\theta$ ，进行BN操作，得到最后的scaling para。（目的是使变换后embedding中的方差之和与原始embedding中的方差之和相同）
$\hat{h}=\bar{\theta}\odot h$

出发点是将cluster内转化成unit-variance, 例如 $d=10,G_1:\{1,2,3,4\},G_2:\{5,6,7\},G_3:\{8,9,10\}$ 。

将簇类内部的矩阵中相似的维度转化为unit-variance.

$\widehat{\boldsymbol{h}}^{(i)}=\frac{1}{\sigma_{i} \cdot\left|\mathcal{G}_{g(i)}\right|}\left(\boldsymbol{h}^{(i)}-\mu_{i} \cdot \mathbf{1}^{T}\right)$

由于向量维度不能自然地分离到hard group divisions。通过例子可以发现，相似度高的clutster中的 $\gamma$ 值也基本相同。本例中假设 $d=4,G_1:\{1,2\},G_2:\{3\},G_3:\{4\}$ 。

$\rho=\left|\begin{array}{llll}1 & 0.9 & 0.5 & 0.1 \\ 0.9 & 1 & 0.6 & 0 \\ 0.5 & 0.6 & 1 & 0.4 \\ 0.1 & 0 & 0.4 & 1\end{array}\right|$

$\rho_1=2.07,\rho_2=2.17,\rho_3=1.77,\rho_4=1.17.$

则通过步骤4简化为：

$\widehat{\boldsymbol{h}}^{(i)}=\frac{1}{\sigma_{i} \cdot \gamma_{i}}\left(\boldsymbol{h}^{(i)}-\mu_{i} \cdot \mathbf{1}^{T}\right)$ （soft version）

$\gamma_i$ 大，相关度高， $\frac{1}{\gamma_i}$ 压缩力度大。

IsoBN接在最终的分类器前面。

3. 实验结果

3.1 数据集结果

IsoBN适用于文自然语言推断（文本蕴涵）、句子对匹配、文本分类等数据集。平均提升了0.8%-1%左右。

3.2 各向同性测评

利用方差贡献率 $EV_k(h)=\frac{\sum_{i=1}^k\lambda^2_i}{\sum_{i=1}^d\lambda^2_j}$ 衡量了空间中不同方向的向量的方差差异。如果前几维 $EV_k$ 较小，说明向量标准差分布在各个方向上较为平缓，若 $EV_k$ 越大，向量空间将退化为一个狭窄的锥体。

在进行IsoBN之后的向量表示明显 $EV_k$ 都有了明显的下降，有效地消减了各向异性。

SUFEHeisenberg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Paper Reading IsoBN

Paper Reading:IsoBNIsoBN: Fine-Tuning BERT with Isotropic Batch Normalization任翔组工作. AAAI21. Github(Null). Paper.1. IntuitionBERT embedding存在各向异性的问题，主要表现为1. 高标准差 2. 不同维度间的高相关性。不利于收敛速度和泛化能力。解决思路：whitening & batch normalization (Ioffe and Szegedy, I
复制链接

扫一扫