pr字幕一个一个出现的笨方法

版本: cs5

效果:
在这里插入图片描述

做法:

新建分项-彩色模板-方框形式,选择与图片底色相同颜色(白色)

放在视频上方,起始位置打点位置:
在这里插入图片描述
拖动方框全部盖住视频字幕
在这里插入图片描述
点击彩色模板的结束位置,将模板框拖到最右侧直到不挡住字幕

完成。

### 关于Transformer模型中的'Attention is All You Need' 在探讨Transformer架构时,核心理念在于注意力机制的重要性被提升到了前所未有的高度[^1]。传统序列处理依赖循环神经网络(RNN),而Transformer摒弃了RNN结构,完全依靠自注意力(self-attention)机制实现输入到输出的映射。 #### 自注意力机制 自注意力允许模型关注同一序列的不同位置,从而捕捉更丰富的上下文关系。具体来说,在每一层中,对于给定的位置i,计算其与其他所有位置j之间的关联度得分,并据此调整权重分布。这种设计使得远距离依赖能够得到更好的建模[^2]。 #### 编码器-解码器框架下的多头注意力 为了增强表达能力,Transformer采用了多头注意力(multi-head attention)方案。每个头部负责学习不同子空间内的特征表示,最终将多个头部的结果拼接起来作为该层的输出。这样的设置不仅提高了并行化程度,还赋予了模型更强的信息提取能力[^3]。 ```python import torch.nn as nn class MultiHeadedAttention(nn.Module): def __init__(self, h, d_model, dropout=0.1): super(MultiHeadedAttention, self).__init__() assert d_model % h == 0 # We assume d_v always equals d_k self.d_k = d_model // h self.h = h self.linears = clones(nn.Linear(d_model, d_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): ... ``` #### 前馈神经网络与残差连接 除了独特的注意力模块外,标准的Transformer还包括基于位置的全连接前馈网络(position-wise feed-forward networks)[^5]。这些组件通常会配合跳跃连接(skip connections)一起工作,形成残差网络(residual network),有助于缓解深层网络训练过程中的梯度消失问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

滕青山博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值