自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(145)
  • 资源 (47)
  • 收藏
  • 关注

原创 TensorRT Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed

[TRT] [E] IRuntime::deserializeCudaEngine: Error Code 1: Serialization (Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed.Version tag does not match. Note: Current Version: 237, Serialized Engine Version: 239

2024-10-18 12:56:18 173

原创 RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a paramete

RuntimeError: Cannot insert a Tensor that requires grad as a constant. Consider making it a paramete

2024-10-15 16:19:07 227

原创 大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理

针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的

2024-09-06 10:12:49 1350

原创 线性代数教材书籍推荐

INTRODUCTI N TO LINEAR ALGEBRA, 线性代数导论,GILBERT STRANG ,有中译本。

2024-09-03 17:01:08 636

原创 normalization归一化算子和方差计算数值稳定性方法

normalization算子和方差计算数值稳定性方法

2024-09-02 10:28:17 1126

原创 Nvidia GPU profiling nsight system

GPU profiling

2024-08-13 09:32:58 834

原创 TensorRT Model Optimizer量化和模型导出

TensorRT Model Optimizer量化和模型导出

2024-08-07 17:38:45 529

原创 Unsupported: ONNX export of convolution for kernel of unknown shape

错误提示为Caused by the value '28 defined in (%28 : Float(*, *, *, *, strides=[199692, 66564, 258, 1], requires_grad=0, device=cpu)这种问题一般出现在卷积的权重不是常规的直接的训练参数,而是从其他计算分支计算得到。这里指示了是test.py第10行引起的,也就是pad那一句导致的。这其实是底层infer shape的bug。这使得x的shape重新被完全静态确定。

2024-07-19 17:02:16 961

原创 TP TN FP FN(true positive, false negative等)的理解

比如,你判断一件事情是阳性,但是你的判断是错的,就是false positive。第二个词positive或者negative,表明判断的内容是阳性还是阴性。第一个形容词为true, false表名这个判断是正确还是错误的。

2024-07-13 23:52:46 122

原创 大语言模型LLM量化激活outliers异常值抑制

突破性技术: 大语言模型LLM量化激活outliers异常值抑制

2024-06-03 10:15:23 2730 4

原创 Transformer 从attention到grouped query attention (GQA)

Transformer 从Attention到grouped query attention (GQA)

2024-05-28 16:38:54 1270

原创 LLM激活稀疏性加速

LLM激活稀疏性加速

2024-04-10 09:21:08 332

原创 导出RWKV模型为onnx

导出RWKV模型为onnx

2024-03-11 13:01:54 594

原创 导出谷歌gemma模型为ONNX

gemma模型导出ONNX

2024-03-08 21:05:54 1048 6

原创 导出LLaMA ChatGlm2等LLM模型为onnx

通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。

2023-08-05 19:15:07 5613

原创 SentencePiece android ndk编译

​LLaMa等LLM语言模型一般使用SentencePiece tokenizer,在端侧部署需要编译和使用其c++版本。在安卓平台使用NDK编译CMakeLists.txt需要进行一些修改:

2023-07-27 09:37:17 1111 1

原创 AWQ模型量化实践

AWQ模型量化实践

2023-06-28 10:23:02 12602 6

原创 ZeroQuant-V2 LLM权重与激活量化

ZeroQuant-V2 LLM权重与激活量化

2023-06-17 14:52:22 1242

原创 一种大于2GB ONNX模型onnxsim优化方法

一种大于2GB模型onnxsim方法

2023-04-24 10:36:51 4337 2

原创 卷积计算转换为矩阵乘计算的几种场景和方法

卷积转矩阵乘

2023-04-17 09:09:03 2324

原创 onnx GridSample算子

onnx GridSample算子

2023-04-07 09:55:59 1564

原创 基于onnx模型和onnx runtime推理stable diffusion

基于onnx模型和onnx runtime推理stable diffusion

2023-03-25 21:51:18 3807

原创 CLIP模型导出ONNX模型

CLIP模型导出ONNX模型

2023-03-25 11:05:03 2390 1

原创 win11系统打不开文件夹解决

win11系统打不开文件夹解决

2023-03-25 10:37:01 1843

原创 ZeroQuant与SmoothQuant量化总结

ZeroQuant SmoothQuant量化总结

2023-03-16 14:43:53 6733 4

原创 矩阵乘GPU性能优化之split k

矩阵乘splitk性能优化

2023-01-13 15:15:27 2323

原创 端侧GPU opencl cast算子

端侧GPU opencl cast算子实现

2022-12-23 11:13:42 294

原创 端侧Android GPU opencl image内存和算子开发

opencl image内存和算子

2022-12-13 09:33:17 1622

原创 winograd卷积实践

winograd卷积实践

2022-11-28 16:54:12 2227

原创 onnx转tflite模型

onnx转tflite模型

2022-11-21 19:12:28 3045

原创 android NDK编译openblas和向量检索库faiss

android编译openblas和faiss库,android NDK build openblas and faiss

2022-10-26 19:32:11 1819 5

原创 深度学习性能优化之图优化

这里总结了深度学习模型常见的部分图优化,有一些现有的深度学习框架已经有了,有些是作者的独特发现,现有深度学习框架还没有。

2022-09-11 18:56:35 4739

原创 transpose算子优化的几种常见场景

transpose算子优化的几种常见场景

2022-09-07 09:05:10 1400

原创 2D Transpose算子GPU实现和优化

2D Transpose算子GPU实现和优化

2022-09-03 08:04:16 820 1

原创 flatbuffer基础教程

flatbuffer基础教程

2022-08-16 10:25:50 3758

原创 端侧GPU基于opencl实现reduce算子

端侧GPU基于opencl实现reduce算子

2022-08-03 15:30:33 1141

原创 sublime text自定义clang format插件格式化C++代码

sublime text自定义clang format插件格式化C++代码。本文内容为在windows平台上通过sublime text开发自定义插件实现调用clang format对C/C++代码进行格式化。

2022-06-17 16:14:57 1501

原创 tflite模型转换和量化

tflite模型转换和量化

2022-06-12 17:10:21 3588

原创 Android基于ndk和cmake开发C++命令行程序

Creating a simple Hello World application Using Android NDK with C++ · GitHubandroid Ndk学习笔记01之Hello World! - 简书https://developer.android.com/ndk/samples/sample_hellojni

2022-05-30 10:59:45 2295

原创 tflite本地构建和调用

tflite本地构建和调用

2022-05-27 19:01:58 2490

OpenCL image from buffer intel

introduction of OpenCL create image from buffer by intel

2023-12-09

DeepSpeed System Optimizations Enable Training Deep Learning

DeepSpeed: System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters

2021-10-23

Netron-Setup-4.5.0.zip

深度学习模型可视化神器,20200912最新版。github下载慢。 注意:安装后记得第一次打开accept里面的条款哦,否则会出现模型打不开的问题。

2020-09-12

cmake-3.17.2-win64-x64.zip

cmake 3.17.2 win64 x64 msi zip,官网下载非常慢,这里可以快速下载,官网下载非常慢,这里可以快速下载,

2020-05-23

Netron-Setup-3.9.8.zip

Netron-Setup-3.9.8.exe Netron Setup 3.9.8,github下载特别慢,可以在这里下载

2020-03-14

伯克利 常用经典算法.pdf

Chapter 0 Prologue Chapter 1 Algorithms with numbers Chapter 2 Divide-and-conquer algorithms Chapter 3 Decompositions of graphs Chapter 4 Paths in graphs Chapter 5 Greedy algorithms Chapter 6 Dynamic programming Chapter 7 Linear programming and reductions Chapter 8 NP-complete problems Chapter 9 Coping with NP-completeness Chapter 10 Quantum algorithms

2019-09-04

华中科技大学博士学位论文endnote参考文献格式

华中科技大学研究生、博士学位论文参考文献endnote格式

2019-09-04

伯克利 常用经典算法.zip

计算机常用经典算法 Chapter 0 Prologue Chapter 1 Algorithms with numbers Chapter 2 Divide-and-conquer algorithms Chapter 3 Decompositions of graphs Chapter 4 Paths in graphs Chapter 5 Greedy algorithms Chapter 6 Dynamic programming Chapter 7 Linear programming and reductions Chapter 8 NP-complete problems Chapter 9 Coping with NP-completeness Chapter 10 Quantum algorithms

2019-09-04

北京大学 研究生学位论文写作指南 2014.pdf

研究生和博士学位论文写作指南参考:北京大学 研究生学位论文写作指南 2014.pdf

2019-06-11

Practical data acquisition for instrumentation and control systems

book of Practical data acquisition for instrumentation and control systems

2018-12-10

Protocol Buffer sublime text 3插件

Protocol Buffer sublime text 3插件,官方网址: https://github.com/vihangm/sublime-protobuf-syntax

2018-08-06

STM32CubeMX 4.26.1

2018年7月最新版STM32CubeMX 4.26.1,官网下载实在太慢,还需要注册

2018-07-20

在 Windows 上安装 TensorFlow TensorFlow官方

官网可能打不开,这里提供了其windows 安装TensorFlow的页面打印pdf

2018-05-03

STM32CubeMX 4.24.0

从官网下载还需要注册登录,很是麻烦,这里提供了官网原版下载的STM32CubeMX 4.24.0

2018-03-05

概率分布手册Hand-book on statistical distributions for experimentalists

不可多得的,全面的讲解各种概率分布的手册。主要用于科研实验人员使用时查询

2018-03-01

BFGS Optimization curve fitting 优化曲线拟合

自己编写的BFGS 优化算法,以及用于曲线拟合的范例,测试通过,结果和matlab非常近似。简单易用。

2017-12-07

Handbook of Fluorescence Spectroscopy and Imaging

Handbook of Fluorescence Spectroscopy and Imaging From Single Molecules to Ensembles

2017-11-23

CRLB 讲解PPT

Cramer-Rao Lower Bound (CRLB)下界可以用于计算无偏估计中能够获得的最佳估计精度,因此经常用于计算理论能达到的最佳估计精度,和评估参数估计方法的性能(是否接近CRLB下界)。本篇博客融合和总结了若干PPT的内容。

2017-10-03

Principles of Optics 7th ed M.Born,E.Wolf.pdf 光学原理

Principles of Optics 7th ed M.Born,E.Wolf.pdf 光学原理 比较好的光学原理介绍书籍,内容全面丰富,几何光学 波动光学 材料光学

2017-09-01

Laser Fundamentals William 激光基础 激光原理

Laser Fundamentals Second Edition William 激光基础

2017-08-20

Principles of Fluorescence Spectroscopy Third Edition Joseph R Lakowicz.pdf

Principles of Fluorescence Spectroscopy Third Edition Joseph R Lakowicz 第三版

2017-08-13

Computer Generated Holograms Techniques and Application

Lee Hologram, 计算全息的重要文献

2017-08-02

DAC MCP4725 STM32 code代码

自己写的STM32 MCP4725 10位轨对轨DAC IIC协议代码,亲测通过。

2017-06-18

免费高清屏幕录制软件FreeScreenVideoRecorder_3.0.45.1027

免费高清屏幕录制软件FreeScreenVideoRecorder_3.0.45.1027,简单易用

2016-11-10

免费屏幕录制软件FreeScreenVideoRecorder

免费好用的屏幕截图和录制软件,录制视频非常清晰。

2016-11-08

Verilog-generate语句的用法

非常棒,非常详细的讲解呢,

2016-05-20

practical-PID-control

PID自动控制学习资料

2016-04-29

深度学习 Deep Learning book, MIT, Ian Goodfellow, Aaron Courville, and Yoshua Bengio

非常棒的深度学习课本 MIT Deep Learning Book in PDF format This book was downloaded in HTML form and conviniently joined as a single PDF file for your enjoyment. Please notice the known issues in the web page, especially with regards to some symbols not rendering well or not at all. From http://www.deeplearningbook.org/ An MIT Press book Ian Goodfellow, Yoshua Bengio and Aaron Courville The Deep Learning textbook is a resource intended to help students and practitioners enter the field of machine learning in general and deep learning in particular. The online version of the book is now complete and will remain available online for free. The print version will be available for sale soon.

2016-04-22

nnImplementationV2 神经网络C++实现

nnImplementationV2 神经网络C++实现 国外一个神经网络的C++实现,具体讲解地址见:https://takinginitiative.wordpress.com/2008/04/23/basic-neural-network-tutorial-c-implementation-and-source-code/和https://takinginitiative.wordpress.com/2008/04/03/basic-neural-network-tutorial-theory/

2016-04-21

matlab 屏幕截图ScreenCapture

国外写的一个比较好的matlab截图代码,使用很简单,解压出来即可使用。

2015-03-25

sublime text 2 3 system verilog自动补充插件

sublime text 2 3 system verilog自动补充插件,非常好用,我自己在原版的基础上进行了一些修改使得它更加适合我们编程的风格,编程风格可以通过里面的配置文件进行修改,不会可以咨询我哦,

2015-02-01

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day3

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day3,内部包含讲解文档和代码

2015-01-30

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day2

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day2,内部包含讲解文档和代码

2015-01-30

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day1

altera官方上海Quartus II时序分析相关三天培训教材练习实例_day1,里面包括讲解文档和代码

2015-01-30

Introduction to Digital Speech Processing Rabiner 2008

讲解数字语音信号处理非常详细的资料,不错的文档

2014-12-26

Hidden Markov Models,隐马尔科夫链介绍Phil Blunsom

对隐马尔科夫链做了一个非常全面而又非常简要的介绍,通俗易懂,

2014-12-26

机器学习十大算法 带书签PDF

机器学习十大算法合并和整理,附带书签,内容丰富。

2014-11-04

FPGA Prototyping By Verilog Examples codes代码

FPGA Prototyping By Verilog Examples 一书的源代码

2014-08-06

最好用的代码编辑软件Sublime Text3.59

最好用的代码编辑软件Sublime Text3.59,包含32位和64位系统安装包

2014-04-27

重力传感器MMA7455 MSP430程序

重力传感器MMA7455的MSP430程序,模块化,很容易使用

2014-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除