深度学习编译器
文章平均质量分 87
Luchang-Li
这个作者很懒,什么都没留下…
展开
-
卷积计算转换为矩阵乘计算的几种场景和方法
卷积转矩阵乘原创 2023-04-17 09:09:03 · 2373 阅读 · 0 评论 -
ZeroQuant与SmoothQuant量化总结
ZeroQuant SmoothQuant量化总结原创 2023-03-16 14:43:53 · 6790 阅读 · 4 评论 -
矩阵乘GPU性能优化之split k
矩阵乘splitk性能优化原创 2023-01-13 15:15:27 · 2374 阅读 · 0 评论 -
端侧GPU opencl cast算子
端侧GPU opencl cast算子实现原创 2022-12-23 11:13:42 · 294 阅读 · 0 评论 -
winograd卷积实践
winograd卷积实践原创 2022-11-28 16:54:12 · 2283 阅读 · 0 评论 -
深度学习性能优化之图优化
这里总结了深度学习模型常见的部分图优化,有一些现有的深度学习框架已经有了,有些是作者的独特发现,现有深度学习框架还没有。原创 2022-09-11 18:56:35 · 4785 阅读 · 0 评论 -
transpose算子优化的几种常见场景
transpose算子优化的几种常见场景原创 2022-09-07 09:05:10 · 1418 阅读 · 0 评论 -
2D Transpose算子GPU实现和优化
2D Transpose算子GPU实现和优化原创 2022-09-03 08:04:16 · 825 阅读 · 1 评论 -
flatbuffer基础教程
flatbuffer基础教程原创 2022-08-16 10:25:50 · 3789 阅读 · 0 评论 -
端侧GPU基于opencl实现reduce算子
端侧GPU基于opencl实现reduce算子原创 2022-08-03 15:30:33 · 1144 阅读 · 0 评论 -
tflite模型转换和量化
tflite模型转换和量化原创 2022-06-12 17:10:21 · 3597 阅读 · 0 评论 -
Winograd算法实现卷积原理
Fast Algorithms for Convolutional Neural NetworksWinograd算法实现卷积原理原创 2022-05-21 15:46:02 · 3429 阅读 · 0 评论 -
im2col+gemm实现卷积基础
im2col+gemm实现卷积基础NCHW/NHWC到NC1HWC0数据格式图解原创 2022-05-10 15:08:30 · 3616 阅读 · 0 评论 -
MatMul矩阵乘法优化基础
MatMul矩阵乘法优化基础原创 2022-02-26 21:39:41 · 872 阅读 · 0 评论 -
NVIDIA GPU SM和CUDA编程理解
本文旨在加深理解GPU底层硬件架构以及硬件如何执行CUDA 程序的细节,并且反过头来进一步指导CUDA程序的编写。原创 2021-11-13 22:08:20 · 6989 阅读 · 2 评论 -
onnx runtime参考
onnx runtime结构和插件机制原创 2021-04-11 11:25:55 · 1742 阅读 · 0 评论 -
Conv2D + batch normalization (BN) 融合
基本原理:利用卷积的线性性,将bn融合到conv2d的kernel和附加一个biasaddconv2d原理https://towardsdatascience.com/conv2d-to-finally-understand-what-happens-in-the-forward-pass-1bbaafb0b148conv2d+bn融合bn的gamma, betta, mean, var都是一个维度跟conv2d output channel维数相同的向量...原创 2021-04-08 20:49:47 · 3284 阅读 · 0 评论 -
polyhedral model schedule tree
TVMpolyhedraldslfusion代码生成code genllvm原创 2020-08-12 23:29:52 · 1012 阅读 · 0 评论
分享