TVM的常见优化方法

最新推荐文章于 2024-05-19 20:17:51 发布

荒山之夜

最新推荐文章于 2024-05-19 20:17:51 发布

阅读量851

点赞数 14

文章标签： TVM，优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29134801/article/details/137440500

版权

其实搞优化，记住两天：

1.现在的cache策略是怎么样的？要将现有的数据转化为合适的格式，减少数据的访问时间。

2.如果有特定的硬件指令，要讲数据转化为特定的硬件指令。

最典型的是一个Gemm计算；

（M，K）* （K，N） A = （M，K） B = （K，N） C = numpy.dot(A,B)

最后写成循环表达式的形式：

for(m,0,1024) for(n,0,1024) for(k,0,1024) C[m * 1024 + n] = 0f32 // 进行一个初始化 temp2 = m * 1024 temp1 = temp2 + n; // 按照最终输出的图单点进行补点 C[temp1] = C[temp1] + A(temp2+k) * B[（k * 1024）+n];

这里的代码其实比较简单，大家注意看我的注释。

分块：

最典型的方法是分块计算，比如L1的大小是32 * 32,那肯定要分出32*32的片

for(m.o 0:32)

for(n.o, 0:32)

for(m.i, 0,32)

for(n.i, 0,32)

C[m.outer*32768 + m.inner*1024 + n.outer*32 &#

最低0.47元/天解锁文章

关注

14
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
TVM的常见优化方法

其实搞优化，记住两天：1.现在的cache策略是怎么样的？要将现有的数据转化为合适的格式，减少数据的访问时间。2.如果有特定的硬件指令，要讲数据转化为特定的硬件指令。最典型的是一个Gemm计算；最后写成循环表达式的形式：for(m,0,1024) for(n,0,1024) for(k,0,1024) C[m * 1024 + n] = 0f32 // 进行一个初始化 temp2 = m * 1024 temp1 = temp2 + n;
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。