COSFORMER 论文精度记录

鉴于需要自己写文章&投稿,发现自己的写作水平烂的出奇。

以往文章阅读主要集中于idea是如何产生的,但并没有很好的训练自己的讲故事能力。

遂决定坚持阅读文献以提高自己的写作素质,记录对于论文题目摘要以及引言的思考。

题目:COSFORMER : RETHINKING SOFTMAX IN ATTENTION

显然这是一篇针对softmax改进的文章

1.摘要:

(1)顶级且很成功的研究领域:Transformer。

(2)其中softmax扮演了一个重要的角色,虽然好,但不好(精度)。

         ⭐这边夸了一下softmax,但提出了其存在的问题。也就是所谓的领域空白?

(3)本文提出了cosformer,这可以在某些方面获得更好的准确率。

        ⭐承接上文问题,引出本文课题。

(4)cosformer保留了softmax注意力的两个核心属性,通过

        线性算子和基于余弦的距离重加权机制。

        ⭐概述核心方法论。

        做了很多实验证明我们方法的优越性。(实验是多层次的)

        ⭐和发现。

简单不失逻辑,不完全否定,但指出了痛点、以及理论核心

2.引言

(1)Transformer 模型已经成功的应用于各个领域。

         不同于其他架构,transformer可以更好的捕捉全局信息。

(2)softmax是transformer可以实现上述特性的核心。然而,其计算开销很大,

        特别是对于长输入。为了解决这个问题,很多方法诞生,特别是稀疏注意力矩阵。

        介绍方法。这些方法取得了很大的进步。

(3)然而(开始转折),效率的提高通常通过在注意力矩阵上的不切实际的假设实现。

        (这将带来什么问题呢?)因此,在某些问题中,尤其是xx中,

(4)由于 softmax 算子似乎是主要障碍,而高效而准确的 softmax 近似很难实现,

        因此自然会出现一个问题:“我们能否用线性函数替换 softmax 算子,

        同时保持其关键属性?”。深入研究发现两个因素。

(5)本文中,我们提出了cosformer,满足了两个属性。我们在五个模型上测试,结果

        显著的优于其他。(效果很好)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值