如何去除填充对模型的影响

最新推荐文章于 2023-09-06 17:54:16 发布

lloyd_chou

最新推荐文章于 2023-09-06 17:54:16 发布

阅读量196

点赞数

分类专栏： ml 算法文章标签：机器学习大数据

本文链接：https://blog.csdn.net/qq_25864747/article/details/120868099

版权

本文介绍了在机器学习中如何处理填充数据的问题，包括将填充值乘以负无穷大使得softmax归一化后为0，以及利用sequence_mask直接将填充设置为0的策略，以确保模型训练不受影响。

摘要由CSDN通过智能技术生成

1、mask*负无穷大数，softmax归一化后等于0

def scaled_dot_product_attention(q, k, v, mask):
  """计算注意力权重。
  q, k, v 必须具有匹配的前置维度。
  k, v 必须有匹配的倒数第二个维度，例如：seq_len_k = seq_len_v。
  虽然 mask 根据其类型（填充或前瞻）有不同的形状，
  但是 mask 必须能进行广播转换以便求和。

  参数:
    q: 请求的形状 == (..., seq_len_q, depth)
    k: 主键的形状 == (..., seq_len_k, depth)
    v: 数值的形状

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lloyd_chou

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何去除填充对模型的影响

1、mask*负无穷大数，softmax归一化后等于0def scaled_dot_product_attention(q, k, v, mask): """计算注意力权重。 q, k, v 必须具有匹配的前置维度。 k, v 必须有匹配的倒数第二个维度，例如：seq_len_k = seq_len_v。虽然 mask 根据其类型（填充或前瞻）有不同的形状，但是 mask 必须能进行广播转换以便求和。参数: q: 请求的形状 == (..., seq_len_q,
复制链接

扫一扫