但这再也不是当年从2000ms降低到700ms那样的飞跃了。
而如果我们放眼大一些的模型,比如Inception V3,那么情况会是:
又或是打开ARM v8.2的情况下,不论是fp16还是quant,性能都可以有一段跃迁:
你看,可以为业务带来质变优化的点依然存在。而这些,正是我们暂时按下ARM优化的原因。
通用性
除了性能,用户最为关心的指标就是通用性。性能再好,业务模型跑不起来都白搭。而MNN背靠阿里巴巴的众多智能场景,久经各方业务的磨炼,在支持算子的数量、算子实现的质量上,都可谓久经考验。但如果不是MNN的死忠粉,可能都很难意识到,我们在通用性方面下的苦功。
模型转换上,我们没有将Caffe、TensorFlow、TensorFlow Lite的转换转嫁给三方的工具,尽量避免模型格式间转换导致的失败。从开源到现在,在支持的转换算子总量上,MNN翻了一番还多。
算子实现上,我们在计算后端的支持上,应该也是业界最广的。除了前文所述的ARM v8.2,我们在GPU算子的支持上,也不遑多让。