鉴于需要自己写文章&投稿,发现自己的写作水平烂的出奇。
以往文章阅读主要集中于idea是如何产生的,但并没有很好的训练自己的讲故事能力。
遂决定坚持阅读文献以提高自己的写作素质,记录对于论文题目摘要以及引言的思考。
题目:COSFORMER : RETHINKING SOFTMAX IN ATTENTION
显然这是一篇针对softmax改进的文章
1.摘要:
(1)顶级且很成功的研究领域:Transformer。
(2)其中softmax扮演了一个重要的角色,虽然好,但不好(精度)。
⭐这边夸了一下softmax,但提出了其存在的问题。也就是所谓的领域空白?
(3)本文提出了cosformer,这可以在某些方面获得更好的准确率。
⭐承接上文问题,引出本文课题。
(4)cosformer保留了softmax注意力的两个核心属性,通过
线性算子和基于余弦的距离重加权机制。
⭐概述核心方法论。
做了很多实验证明我们方法的优越性。(实验是多层次的)
⭐和发现。
简单不失逻辑,不完全否定,但指出了痛点、以及理论核心。
2.引言
(1)Transformer 模型已经成功的应用于各个领域。
不同于其他架构,transformer可以更好的捕捉全局信息。
(2)softmax是transformer可以实现上述特性的核心。然而,其计算开销很大,
特别是对于长输入。为了解决这个问题,很多方法诞生,特别是稀疏注意力矩阵。
介绍方法。这些方法取得了很大的进步。
(3)然而(开始转折),效率的提高通常通过在注意力矩阵上的不切实际的假设实现。
(这将带来什么问题呢?)因此,在某些问题中,尤其是xx中,
(4)由于 softmax 算子似乎是主要障碍,而高效而准确的 softmax 近似很难实现,
因此自然会出现一个问题:“我们能否用线性函数替换 softmax 算子,
同时保持其关键属性?”。深入研究发现两个因素。
(5)本文中,我们提出了cosformer,满足了两个属性。我们在五个模型上测试,结果
显著的优于其他。(效果很好)