网络层数的增加带来的参数量的减少并不是好事。
在最近的实验中我发现参数量减少的模型在实际的速度表现上未必比参数量多的模型更好。
据我的推测这是IO(访存量)的增加造成的,就类似于访问次数上去了带来了通讯成本的开支,虽然整体计算量小了,但是通讯开支大了,反而速度下降了。
要找一个参数量和速度的均衡才具有轻量化的价值。
一味追求参数量减少忽略了速度并不是好事!
其中注意力机制真的很影响速度!!!!!
网络层数的增加带来的参数量的减少并不是好事。
在最近的实验中我发现参数量减少的模型在实际的速度表现上未必比参数量多的模型更好。
据我的推测这是IO(访存量)的增加造成的,就类似于访问次数上去了带来了通讯成本的开支,虽然整体计算量小了,但是通讯开支大了,反而速度下降了。
要找一个参数量和速度的均衡才具有轻量化的价值。
一味追求参数量减少忽略了速度并不是好事!
其中注意力机制真的很影响速度!!!!!