[解读] Your Local GAN: Designing Two Dimensional Local Attention Mechanisms for Generative Models

最新推荐文章于 2024-08-09 08:26:54 发布

天在那边

最新推荐文章于 2024-08-09 08:26:54 发布

阅读量1.5k

点赞数 1

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/weipf8/article/details/105756406

版权

机器学习同时被 2 个专栏收录

24 篇文章 3 订阅

订阅专栏

深度学习

24 篇文章 8 订阅

订阅专栏

链接: https://arxiv.org/abs/1911.12287v1

项目地址: https://github.com/giannisdaras/ylg

解读: https://www.leiphone.com/news/201912/FBZsLSCZSgyD5fIq.html

改进

为了解决密集注意力层 (Dense attention) 的计算问题, 本文提出一种稀疏的注意力层. 它利用 attention heads [25] 并将注意力特征图稀疏化, 从而既能够并行运算, 加快运算速度, 同时利用全信息有向图生成的稀疏注意力特征图, 能够保留密集注意力层所需的特征.

在 SAGAN 中, 注意力图的计算为
$X^{\prime}=\sigma\left(X_{Q} \cdot Y_{K}^{T}\right) \cdot Y_{V}.$
其中
$\begin{aligned} X_{K}=X \cdot W_{K} \\ Y_{Q}=X \cdot W_{Q} \\ Y_{V}=X \cdot W_{V} \\ \end{aligned}$
稀疏化注意力层.

记 $A_{X, Y}=X_{Q} \cdot Y_{K}^{T}, \in \mathbb{R}^{N_{X} \times N_{Y}}$ , 由 $A_{X,Y}$ 计算注意力层是耗时的. 为了解决这个问题, 本文将 $A_{X,Y}$ 稀疏化, 并将注意力层分成多个部分, 即注意力头[25]. 稀疏化通过掩码矩阵 $M_{i} \in\{0,1\}^{N_{X} \times N_{Y}}$ 进行的. 经过步数 $i$ 处理后, 得到稀疏化的矩阵 $A^i_{X,Y}$ 定义为
$A_{X, Y}^{i}[a, b]=\left\{\begin{array}{l} A_{X, Y}[a, b], \quad M^{i}[a, b]=1 \\ -\infty, \quad \quad \quad M^{i}[a, b]=0 \\ \end{array}\right.$
本文使用信息流图来生成 $M$ .

参考

[25] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. arXiv e-prints, page arXiv:1706.03762, Jun 2017. 1, 2, 5
[26] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-Attention Generative Adversarial Networks. arXiv e-prints, page arXiv:1805.08318, May 2018. 1, 2, 3, 8, 11