arm汇编解析—tengine winograd_nhwc卷积实现
与xnn/qnn卷积的异同点
tengine nhwc的实现跟qnn/xnn的卷积很类似,
区别的地方:
1、分块大小不同,tengine是4x12的分块,xnn/qnn一般是4x4或4x8 (指浮点引擎)
2、winograd毕竟在kernel维度不需要累加,只需在channel维度累加即可,因此实现的时候遍历输入通道求和即可
相似的地方:
1、kernel的pack都是按照nchw的维度,即输出通道,然后是输入通道,最后是kernelsize维度
2、输入的pack方式也很相似,只不过te
原创
2020-07-08 14:16:35 ·
800 阅读 ·
0 评论