软注意力和硬注意力的对比

软注意力和硬注意力的对比

软注意力(确定):

软(确定性)注意力机制使用所有键的加权平均值来构建上下文向量。对于软注意力,注意力模块相对于输入是可微的,因此整个系统仍然可以通过标准的反向传播方法进行训练。软注意力数学描述如下1
e = f ( q , k ) α = s o f t m a x ( e ) = e x p ( e i ) ∑ k = 1 n e x p ( e k ) c = ∑ i = 1 n α i v i \begin{aligned} \pmb{e} &= f(\pmb{q},\pmb{k}) \\ \pmb{\alpha}&=softmax(\pmb{e})=\frac{exp(e_i)}{\sum_{k=1}^nexp(e_k)} \\ \pmb{c}&=\sum_{i=1}^{n}\alpha_i\pmb{v}_i \end{aligned} eeααcc=f(qq,kk)=softmax(ee)=k=1nexp(ek)exp(ei)=i=1nαivvi
其中的 f ( q , k ) f(q,k) f(q,k)有很多种计算方法,如下表所示1

在这里插入图片描述

硬注意力(随机):

硬(随机)注意力中的上下文向量是根据随机采样的键计算的。硬注意力可以实现如下1
α ~ ∼ M u l t i n o u l l i ( { α i } ) c = ∑ i = 1 n α ~ i v i \widetilde{\alpha} \sim Multinoulli(\{\alpha_i\}) \\ \pmb{c}=\sum_{i=1}^{n}\widetilde{\alpha}_i\pmb{v}_i α Multinoulli({αi})cc=i=1nα ivvi
注:多项式分布2:多项式分布是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个。如果现在还是做n次试验,只不过每次试验的结果可以有m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项分布。概率密度函数是:
P ( X 1 = k 1 , X 2 = k 2 , ⋯   , X n = k n ) = n ! ( k 1 ! ) ( k 2 ! ) ⋯ ( k n ! ) ∏ i = 1 n ( p k i ) P(X_1=k_1,X_2=k_2,\cdots,X_n=k_n)=\frac{n!}{(k_1!)(k_2!)\cdots(k_n!)}\prod \limits_{i=1}^n(p_{k_i}) P(X1=k1,X2=k2,,Xn=kn)=(k1!)(k2!)(kn!)n!i=1n(pki)

两者的对比和一种改进:

与软注意力模型相比,硬注意力模型的计算成本更低,因为它不需要每次都计算所有元素的注意力权重。 然而,在输入特征的每个位置做出艰难的决定会使模块不可微且难以优化,因此可以通过最大化近似变分下限或等效地通过 REINFORCE 来训练整个系统。 在此基础上,Luong 等人提出了机器翻译的全局注意力和局部注意力机制3。 全局注意力类似于软注意力。 局部注意力可以看作是硬注意力和软注意力之间的有趣混合,其中一次只考虑源词的一个子集。 这种方法在计算上比全局注意力或软注意力更便宜。 同时,与硬注意力不同,这种方法几乎在任何地方都是可微的,从而更容易实现和训练。

全局的注意力结构如下4

在这里插入图片描述

局部的注意力结构如下4

在这里插入图片描述

参考:


  1. Niu Z, Zhong G, Yu H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021, 452: 48-62. ↩︎ ↩︎ ↩︎

  2. 《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》论文阅读 ↩︎

  3. Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015. ↩︎

  4. Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.
    ranslation[J]. arXiv preprint arXiv:1508.04025, 2015. ↩︎ ↩︎

  • 9
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
2005年上半年件评测师级答案 上午答案 (1) A (16) B (31) B (46) C (61) C (2) D (17) A (32) A (47) B (62) B (3) A (18) A (33) A (48) C (63) D (4) B (19) B (34) B (49) D (64) D (5) B (20) A (35) C (50) B (65) A (6) C (21) B (36) D (51) C (66) B (7) D (22) C (37) B (52) A (67) C (8) C (23) B (38) D (53) B (68) A (9) C (24) A (39) B (54) B (69) D (10) B (25) D (40) A (55) D (70) B (11) C (26) B (41) A (56) D (71) A (12) A (27) C (42) A (57) D (72) C (13) D (28) B (43) A (58) C (73) B (14) B (29) C (44) A (59) B (74) A (15) A (30) C (45) C (60) A (75) D 下午答案 试题一 [问题1]   模块接口测试、局部数据结构测试、路径测试、错误处理测试、边界测试 [问题2] V(G)=6 [问题3] 用例编号 temp取值 1 >= 2 > 3 = = 4 <= 5 =、>、= =、<=、<之外的字符组合 试题二 [问题1] 响应时间是系统完成事务执行准备后所采集的时间戳和系统完成待执行事务后所采集的时间戳之间的时间间隔,是衡量特定类型应用事务性能的重要指标,标志了用户执行一项操作大致需要多长时间。 [问题2] 系统能够承受的并发用户登录的最大数量为50 题中指出"通常情况下,交易操作合理的响应时间为5秒以内"。此案例中,登录响应时间随虚拟并发用户数增加而增长。在50个虚拟并发用户的负载下,登录响应时间达到5秒(注意图形中响应时间指标的比例为10)。当负载超过50个虚拟并发用户,响应时间超过5秒。所以此案例中最合理的并发用户数为50。 [问题3] 服务器CPU资源使用率是合理的。 2M带宽是系统处理业务的瓶颈。 理由是对比"4M带宽登录"案例,4M带宽下,系统每秒处理完成的登录个数固定在13.5个左右,登录响应时间随虚拟用户数增加而增长。在60个虚拟用户的压力下,登录响应时间在4.2秒左右(注意图形中响应时间指标的比例为10)。在80个虚拟用户的压力下,登录响应时间在5.8秒左右,所以在合理登录响应时间(5秒)内预计同时登录用户数是70左右。服务器CPU使用率成为系统处理的瓶颈。说明随着带宽的提高,系统的处理能力进一步提高,同时高吞吐量造成了系统资源的紧张,带来了新的系统性能瓶颈。 [问题4] 服务器CPU资源使用率不合理,其平均值超过85%。 4M带宽的网络测试环境与2M带宽的网络测试环境相比,带来了新的系统瓶颈(CPU资源使用率平均值超过85%),所以增加带宽不是提高系统性能的有效方法。在此基础上,继续提高带宽,系统的处理能力将进一步提高,高的处理能力会使服务器的资源瓶颈进一步加重,带来更加严重的后果。 [问题5] 当CPU资源使用成为系统瓶颈时的解决方案可以概括为: 1. 增加CPU的个数; 2. 提高CPU的主频; 3. 将web服务器与数据库服务器分开部署; 4. 调整件的设计与开发; 当带宽成为系统瓶颈时的解决方案可以概括为: 1. 增加带宽; 2. 压缩传输数据。 试题三 [问题1] 场景1:A 场景2:A、B 场景3:A、C 场景4:A、D 场景5:A、E [问题2] 测试用例ID号 场景 帐号 是否黑名单卡 输入油量 帐面金额 加油机油黑 预期结果 C02. 场景2:卡无效 1 n/a n/a n/a n/a 退卡 C03. 场景3:黑名单卡 V V n/a n/a n/a 吞卡 C04. 场景4:金额不足 V I V I V 提示错误,重新输入加油量 C05. 场景5:油量不足 V I V V I 提示错误,重新输入加油量 [问题3] 1. 0升 2. 250升 3. 251升 [问题4] DDP=Bugstester(Bugstester+ Bugscustomer)=(20+100)(20+100+30)=80%(0.8) 其中,Bugstester为测试者发现的错误数; Bugscustomer为客户发现并反馈技术支持人员进行修复的错误数。 试题四 [问题1] 评估安装手册 安装的自动化测试 安装选项和设置的测试 安装过程的中断测试 安装顺序测试 多环境安装测试 安

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KPer_Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值