推理引擎
文章平均质量分 77
推理引擎
Luchang-Li
这个作者很懒,什么都没留下…
展开
-
normalization归一化算子和方差计算数值稳定性方法
normalization算子和方差计算数值稳定性方法原创 2024-09-02 10:28:17 · 1096 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 457 阅读 · 0 评论 -
Unsupported: ONNX export of convolution for kernel of unknown shape
错误提示为Caused by the value '28 defined in (%28 : Float(*, *, *, *, strides=[199692, 66564, 258, 1], requires_grad=0, device=cpu)这种问题一般出现在卷积的权重不是常规的直接的训练参数,而是从其他计算分支计算得到。这里指示了是test.py第10行引起的,也就是pad那一句导致的。这其实是底层infer shape的bug。这使得x的shape重新被完全静态确定。原创 2024-07-19 17:02:16 · 874 阅读 · 0 评论 -
导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。原创 2023-08-05 19:15:07 · 5260 阅读 · 0 评论 -
SentencePiece android ndk编译
LLaMa等LLM语言模型一般使用SentencePiece tokenizer,在端侧部署需要编译和使用其c++版本。在安卓平台使用NDK编译CMakeLists.txt需要进行一些修改:原创 2023-07-27 09:37:17 · 1077 阅读 · 1 评论 -
AWQ模型量化实践
AWQ模型量化实践原创 2023-06-28 10:23:02 · 11863 阅读 · 6 评论 -
一种大于2GB ONNX模型onnxsim优化方法
一种大于2GB模型onnxsim方法原创 2023-04-24 10:36:51 · 4051 阅读 · 2 评论 -
卷积计算转换为矩阵乘计算的几种场景和方法
卷积转矩阵乘原创 2023-04-17 09:09:03 · 2165 阅读 · 0 评论 -
onnx GridSample算子
onnx GridSample算子原创 2023-04-07 09:55:59 · 1469 阅读 · 0 评论 -
CLIP模型导出ONNX模型
CLIP模型导出ONNX模型原创 2023-03-25 11:05:03 · 2141 阅读 · 0 评论 -
ZeroQuant与SmoothQuant量化总结
ZeroQuant SmoothQuant量化总结原创 2023-03-16 14:43:53 · 6401 阅读 · 4 评论 -
N个数选出M个最小或最大值,topk算法
N个数选出M个最小或最大值算法 有时候需要N个数选出M个最小或最大值算法,但并未要求选出的M个数据需要有序排列,那么这使得算法复杂度可以很低。这里给出一种可行的方法,比常见的一些方法具有更加显著的速度。1,找出N个数据的最大和最小值。需要一次N个数据遍历。2,根据最大最小值根据一个间隔创建一个直方图,N个数据遍历一次,进行直方图统计。例如,直方图间隔为k,则每次直方图(CurDat-MinD...原创 2018-04-18 14:54:33 · 5804 阅读 · 1 评论 -
矩阵乘GPU性能优化之split k
矩阵乘splitk性能优化原创 2023-01-13 15:15:27 · 2083 阅读 · 0 评论 -
端侧GPU opencl cast算子
端侧GPU opencl cast算子实现原创 2022-12-23 11:13:42 · 278 阅读 · 0 评论 -
端侧Android GPU opencl image内存和算子开发
opencl image内存和算子原创 2022-12-13 09:33:17 · 1537 阅读 · 0 评论 -
winograd卷积实践
winograd卷积实践原创 2022-11-28 16:54:12 · 1972 阅读 · 0 评论 -
onnx转tflite模型
onnx转tflite模型原创 2022-11-21 19:12:28 · 2926 阅读 · 0 评论 -
android NDK编译openblas和向量检索库faiss
android编译openblas和faiss库,android NDK build openblas and faiss原创 2022-10-26 19:32:11 · 1736 阅读 · 5 评论