embedding size 是一个超参数 后续swim transformer使用的超参数
patch merging 下采样
patch 融合 缩小分辨率 增大感受野
原始trm使用正余弦进行编码
但是 原始的trm 和 后来的vit 使用的绝对的位置信息
而
怎么融入到相对位置信息里面去
展平:
移动窗口注意力机制:
这样不好
embedding size 是一个超参数 后续swim transformer使用的超参数
patch merging 下采样
patch 融合 缩小分辨率 增大感受野
原始trm使用正余弦进行编码
但是 原始的trm 和 后来的vit 使用的绝对的位置信息
而
怎么融入到相对位置信息里面去
展平:
移动窗口注意力机制:
这样不好