【扒代码】self.attn_ratio = attn_ratio

最新推荐文章于 2024-10-01 20:22:14 发布

dearRongerr

最新推荐文章于 2024-10-01 20:22:14 发布

阅读量203

点赞数 7

分类专栏：扒代码文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/2301_77549977/article/details/141131950

版权

扒代码专栏收录该内容

52 篇文章 2 订阅

订阅专栏

class CascadedGroupAttention(torch.nn.Module):
    '''
    CascadedGroupAttention 类实现了级联群注意力机制，用于增强特征多样性，并逐步精化特征表示。

    CascadedGroupAttention 类实现了级联群注意力机制，
    它通过将输入特征分割成不同的部分并输入到不同的注意力头中来增强特征的多样性。
    每个头计算自注意力映射后，将所有头的输出级联起来，并通过一个线性层将它们投影回原始输入的维度。
    这个过程不仅减少了计算冗余，而且通过串联的方式逐步精化特征表示。
    '''
    r""" Cascaded Group Attention.
    Args:
        dim (int): Number of input channels.输入通道数。
        key_dim (int): The dimension for query and key.查询和键的维度。
        num_heads (int): Number of attention heads.注意力头的数量。
        attn_ratio (int): Multiplier for the query dim for value dimension.值维度与查询维度的比例。
        resolution (int): Input resolution, correspond to the window size.输入分辨率，对应于窗口大小。
        kernels (List[int]): The kernel size of the dw conv on query.应用于查询的深度卷积的核大小。
    """
    # dim = 64
    def __init__(self, dim, num_heads=4,
                 attn_ratio=4,
                 resolution=7,
                 kernels=[5, 5, 5, 5], ):
        super().__init__()# 调用基类的构造函数

        key_dim = dim //16 # key_dim = 4 计算每个头的键（key）维度，这里是输入通道维度除以16
        self.num_heads = num_heads # self.num_heads = 4 注意头的数量
        self.scale = key_dim ** -0.5    # self.scale = 0.5 key_dim = 4缩放因子，用于调整注意力分数
        self.key_dim = key_dim  #self.key_dim = 4 每个头的键（key）维度
        self.d = int(attn_ratio * key_dim)  # 16 = 4*4 值（value）维度，是键维度的attn_ratio倍
        # TODO attn_ratio是什么意思？
        # Ans: 
        self.attn_ratio = attn_ratio    # self.attn_ratio = 4 值维度与查询维度的比例

注意力机制中 attn_ratio是什么意思？
self.attn_ratio = attn_ratio # self.attn_ratio = 4 值维度与查询维度的比例

在注意力机制中，attn_ratio（注意力比例）是一个超参数，用于控制值（value）维度与查询（query）维度之间的比例关系。在 CascadedGroupAttention 类的上下文中，attn_ratio 乘以 key_dim 来确定值（value）的维度。这个比例有助于平衡模型中的不同维度，以实现更好的性能和效率。

具体来说：

key_dim 是每个注意力头的键（key）和查询（query）的维度。
attn_ratio 是一个整数，表示值（value）维度是查询（query）维度的多少倍。
self.d = int(attn_ratio * key_dim) 这行代码计算了值（value）的维度，其中 self.d 是每个头的值（value）的维度。

例如，如果 key_dim 是 4，attn_ratio 是 4，那么每个头的值（value）的维度 self.d 将会是 16。这意味着值向量的长度是查询向量的 4 倍。（为什么值的长度可以是向量的那么多

使用 attn_ratio 的原因包括：