[daily paper 11]2023 03 19 2022 1 Large Models are Parsimonious Learners Activation Sparsity in Trai

TanixLu

已于 2023-03-20 23:51:15 修改

阅读量130

点赞数

分类专栏： daily paper 文章标签：深度学习人工智能机器学习

于 2023-03-20 23:45:58 首次发布

本文链接：https://blog.csdn.net/mynameisltx/article/details/129679266

版权

12 篇文章 1 订阅

订阅专栏

这篇论文是关于Transformer中的稀疏激活，在训练好的Transformers上，激活是稀疏的。

文中通过实验表明，这种稀疏性是普遍的：

这些条件下都是稀疏的。

模型越大，从非零元素占比这个指标上看，越稀疏。

这种稀疏性的来源是什么？

文中提了几个假设并予以否定。

根据这种稀疏性，文中提出了一种Top-k Transformer。和普通Transformer的区别是，只取数值最大的前k个激活。文中通过实验发现，使用Top-k的方法，反而有一定的好处。

效率提升（减少FLOP）。其中又分为两部分，一个是第二层MLP的效率提升，稀疏的向量跟矩阵乘，只要用非零的乘就行了；一个使第一层MLP的提升，第一层公式是 $\sigma(K^Tx)$ ，结果是稀疏的， $\sigma$ 是ReLU激活函数， $K^T$ 的行向量记为 $k_1,...,k_{d_{ff}}$ ，我们只需要找和x最接近的k（Top-k的k）个行向量就行了，这是一个nearest neighbor search（NNS）问题或者叫maximum inner product search problem。存在一些近似算法可以达到次线性（相对于 $d_{ff}$ ）的时间复杂度。这些方法还不一定带来wall clock时间的减少，不过提到了一个论文实现可以减少wall clock时间。
更好的稳健性和置信度校准。更稳健了是说对噪音的抗性增强；更好的置信度校准是说，不容易过于自信，比如有个0.8像驴、0.2像骡子的图片，不会很自信地说99%是驴。

文章主要介绍了这种稀疏性，但是个人认为没有给出如何很好地利用这种稀疏性的方法。

关注