最近阅读MetaFormer Baselines for Vision,里面的卷积是separable convolution,具体什么是separable convolution,这里给出一个简单的说明:
MetaFormer Baselines for Vision一文应用在图像上,而我在处理一维数据,所以有必要对其中的代码进行修改。这里先给出论文的代码:
然后给出我的一维版本(论文中的act2是nn.Identity,这个函数直接把输入作为输出,我就省去了):
class SepConv(nn.Module):
def __init__(self, in_ch, stride=1, expansion=2, act_layer=nn.ReLU,
bias=False, kernel_size=3, padding=1):
super().__init__()
med_ch = int(in_ch * expansion)
self.pwconv1 = nn.Linear(in_ch, med_ch, bias=bias)
self.act = act_layer()
self.dwconv = nn.Conv1d(med_ch, med_ch, kernel_size=kernel_size,stride=stride,
padding=padding, groups=med_ch, bias=bias) # depthwise conv
self.pwconv2 = nn.Linear(med_ch, in_ch, bias=bias)
def forward(self, x):
x = x.permute(0, 2, 1) # (N,C,L)->(N,L,C)
x = self.pwconv1(x) # (N,L,C)->(N,L,C')
x = self.act(x)
x = x.permute(0, 2, 1) # (N,L,C')->(N,C',L)
x = self.dwconv(x) # (N,C',L)->(N,C',L')
x = x.permute(0, 2, 1) # (N,C',L')->(N,L',C')
x = self.pwconv2(x) # (N,L',C')->(N,L',C)
x = x.permute(0, 2, 1) # (N,L',C)->(N,C,L')
return x
如果你的数据最后一维是Channel,那不就不用像我这样多首尾两次转置。
在实际运行的时候,由于使用全连接进行pointwise conv,所以channel变化大的话运算量还是较大的,并不像图片那样可以减少运算量。
有问题欢迎在评论区讨论。