Carlos橘子柠檬-CSDN博客

原创【AI工具链】CNN\LLM模型量化全解-以TensorRT为例

本文主要阐述AI工具链中最需要的工具之一：量化工具。以CNN\LLM模型量化为展开，具体实例分析会以TensorRT为例，内容主要作为AI算法系列中模型量化部分的补充内容。一文讲完模型压缩、转换、量化和优化（CNN/Transformer）

2025-05-10 12:44:25 1038

原创【Jetson】一、初识Jetson Orin Nano Super 老黄带给我们惊喜了？

【代码】【Jetson】一、初识Jetson Orin Nano Super 老黄带给我们惊喜了？

2025-04-28 22:31:05 885

原创【高性能计算】Sort排序的CUDA计算优化加速-冒泡\并归\双调

在odd-even sort的算法下，原本O(n^2)的总比较次数不变，但是由于并行，时间复杂度降到O(n)4个长度为4的相反单调性单调序列，相邻两个合并，生成两个长度为8的双调序列，分别排序。2个长度为8的相反单调性单调序列，相邻两个合并，生成1个长度为16的双调序列，排序。以下的例子中，先比较相邻的2个元素，按照递增->递减->递增->递减排序。再比较4个元素，按照递增->递减排序，4个元素内部进行对比排序。两两序列合并，形成4个双调序列，分别按相反单调性排序。非2的幂次长度序列排序？

2025-02-06 14:01:44 848

原创【AI系统】一文讲完经典的网络模型设计

BEV（Bird’s Eye View，鸟瞰图）允许自动驾驶车辆从上帝视角“看到”周围的环境，就像一只鸟从空中俯瞰地面一样。基于BEV的视觉感知指的是基于多个视角的图像序列作为输入，算法需要将这些视角转换为 BEV 特征并对其进行感知，例如输出物体的三维检测或在BEV视图下进行语义分割。纯视觉BEV感知中最经典的结构就是BEVFormer技术使用Backbone和Neck从环视图像中提取多尺度图像特征（ResNet101-DCN + FPN）

2024-12-06 15:59:23 873

原创【C\C++】一文讲完C++\操作系统核心基础

本文总结了C++和操作系统核心基础知识，包括：大小端存储模式：大端序（高位在低地址）和小端序（低位在低地址）的区别结构体sizeof计算规则：通过6个典型示例解析内存对齐机制头文件作用：用于声明函数、类等，方便模块化编程关键特性：final修饰符限制继承和重写using的多用途（命名空间、类型别名）template模板机制explicit禁止隐式转换面向对象核心：封装与继承特性访问控制权限（public/private/proprotected）友元机制多态实现方式

2024-11-12 19:55:09 639

原创【AI系统】一文讲完AI框架和AI编译器及其优化

因为LTO是在编译后的优化，因此可以解决多个.o文件互不感知的优化问题，可以在全局上对整个程序进行优化，优化内容参考优化等级。为了减少开启LTO带来编译时间太长的问题，LLVM提出了ThinLTO技术，可以大幅降低编译时间，在LLVM编译器下增加-flto=thin即使用的是ThinLTO优化。LTO（Link Time Optimization）是链接期间的程序优化，将多个中间文件合并在一起，形成一个全局调用图，从而进行全程序的优化，链接时优化是对整个程序的分析和跨模块的优化。

2024-11-01 16:41:23 1106

原创【AI系统】一文讲完CPU计算与调度机制

https://chenzomi12.github.io/01Introduction/README.html

2024-09-25 14:23:32 1073

原创【AI系统】一文讲完NPU计算与调度机制

每一种灵活性都会带来多余的硬件面积，因此绝大多数NPU硬件架构只能支持以上几个维度当中的一个或几个，但是也会形成一个巨大的硬件映射空间，而针对于一个特定任务负载的每一个调度的决策在这个映射空间都是一个点，其结果都会得到不同的延时以及硬件利用率等性能。这可能是决定论或安全性所需要的。不同的方法需要不同的硬件和软件来支持它们，这取决于不同的场景的需求，在设计中考虑运行时哪项指标是最重要的:吞吐量、延迟、公平性或确定性。NPU的架构形式非常丰富，而不同的硬件架构形式又决定了NPU可以支持的调度的灵活性。

2024-09-24 16:31:23 1284

原创【高性能计算】硬件感知的神经网络自动搜索NAS研究综述

由于需要将神经架构部署到资源受限的硬件上, 人们迫切地需要高效的架构研究发现 FLOP 数并不总是反映实际的硬件效率具有较低 FLOPs 的架构并不一定更快人类设计的规则仍然存在产生次优架构的风险NAS，Neural architecture search 能自动搜索具有最佳架构的神经网络.NAS 的方法可以根据 3 个维度进行分类: 搜索空间、优化方法和性能评估策略.NAS主要是搜索神经网络的拓扑结构搜索空间定义了理论上可以表示的架构.

2023-11-09 15:18:02 539

原创【嵌入式】Linux程序调试工具使用教程-GDB\Coredump\多线程调试\ASAN

GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。或许，各位比较喜欢那种图形界面方式的，像VC、BCB等IDE的调试，但如果你是在 UNIX平台下做软件，你会发现GDB这个调试工具有比VC、BCB的图形化调试器更强大的功能。所谓“寸有所长，尺有所短”就是这个道理。可让被调试的程序在你所指定的调置的断点处停下来当程序被停下来看，可以检查此时你的程序中所发生的事动态的改变你程序的执行环境。

2023-10-13 11:16:19 750

原创【高性能计算】Linux系统CPU性能分析工具教程

首先在后台启动一个dd命令，让它持续运行一段时间，然后开启perf record，记录一秒钟内cpu都运行了多少个cpu-cycles，也就是时间（同时使能-g，就会一并记录运行的函数以及调用关系），再利用perf script命令将perf.data转成perf.unfold，最后利用FlameGraph工具将其转换成一个perf.svg，这是一个图形文件，用浏览器打开后会得到这样图记录着函数调用关系及其cpu-cycles（时间）占比，就像一缕缕升起的火苗，所以被称之为火焰图。

2023-10-13 10:51:01 3643

原创【高性能计算】TVM使用TE手动优化矩阵乘法算法解析与代码解读

TE 的设计是作为更复杂的算法的基础，可以搜索潜在的优化。本教程提供了一个 TVM 张量表达（TE）工作流程的演练，使用了一个矢量添加和一个矩阵乘法的例子。通过一系列的操作来描述你的计算。描述我们要如何计算使用调度原语。编译到我们想要的目标函数。可以选择保存该函数以便以后加载。

2023-02-27 20:40:31 1228

原创【嵌入式】gcov/lcov/gcovr代码覆盖率交叉编译使用解析

gcov是一个测试代码覆盖率的程序，正确地使用它搭配GCC可以分析、帮助你将代码写得更高效。帮助你优化程序。类似于一个profiling tool，使用gcov或者gprof，可以收集到一些基础的性能统计数据。每一行代码执行的频度每个代码文件中实际被执行到的行数每一个代码块执行使用的时间gcov创建一个logfile叫做源文件名称.gcxx (这里的源文件名称指的是.c或者.cc文件的文件名)，表示的是这个源文件.c 中每一行所被执行的次数。这些文件可以配合gprof使用。

2023-02-08 15:26:27 7797 4

原创【高性能计算】内存大小和地址对齐以及异构平台处理手段

解决内存不断变慢问题的一个方法是在更宽的总线上访问内存，而不是一次访问一个字节

2023-01-17 16:35:15 1631

原创【高性能计算】NCNN源码解析笔记

layer->load_model(mb)，我们指定layer其实是解析完模型网络结构的具体的layer，比如卷积Convolution，也就是这个调用其实调用的是layer的子类Convolution层的load_model()函数。在modelbin.cpp中load的实现就很简单了，根据多态的load传入不同的参数，声明一维、二维或三维的Mat，然后把从xxx.bin中解析出的数据放入Mat返回回去就行了。benchmark：一些常见模型的模型文件，如mobilenet，resnet，vgg等。

2022-09-30 15:41:52 1874 1

原创【AI系统】一文讲完多线程多进程计算

本文探讨了多线程与多进程编程中的关键概念。在多线程环境下，静态变量共享可能导致数据竞争，需使用同步机制确保线程安全；volatile关键字仅保证变量可见性，不保证原子性。线程相比进程更轻量级，共享资源但需解决互斥访问问题。文章还介绍了协程的特性、线程不安全问题的解决方案、线程状态转换以及线程池的工作原理。线程池通过预创建线程提高效率，适用于高频短时任务处理。最后提供了一个简洁的C++线程池实现方案，包含任务队列、线程管理和同步机制等核心组件。

2022-09-21 09:41:12 1150

原创【C/C++】cmake\makefile使用教程

cmake 主要是对 CMakeLists.txt 文件进行编写CMAKE_MINIMUM_REQUIRED(VERSION 2.6)set(CMAKE_CXX_STANDARD 11) set(CMAKE_CXX_STANDARD_REQUIRED True) PROJECT(HELLO) # 把当前目录下所有源代码文件和头文件加入列表变量 SRC_LISTAUX_SOURCE_DIRECTORY(. SRC_LIST)# 也可以使用set命令新建变量来存放需要的源文件建立列表变量s

2022-05-09 21:14:39 527

原创【高性能计算】英特尔oneAPI—英特尔异构统一编程接口初识及其深度学习应用

英特尔oneAPI-英特尔异构统一编程与接口初识1 高性能计算的今天高性能计算(High performance computing，HPC) 通常使用不同的设备、处理器进行计算。HPC的市场增长逾加迅速，在云计算、大数据、AI等领域大放异彩。如今，全球芯片短缺似乎无法避免，而高性能计算需求愈加旺盛，随着深度学习等需要高性能算力的模型快速发展，硬件价格的上涨、计算能力的限制、模型设计的日益发展，让有限的设备发挥高性能的计算能力，成为无法避免的问题与挑战。2 oneAPI的生正逢时one 代表统

2022-05-06 19:46:04 4906 5

原创【深度学习】图像基础与神经网络及其应用

1 应用交通运输是新型基础设施与传统基础设施融合发展的重要领域，而智能交通是交通运输行业发展的主要方向之一。国家已经将“交通强国”列入国家战略，十三届全国人大四次会议通过《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》，指出发展智慧交通、自动驾驶和车路协同的出行服务，这将很大程度上为智能交通的建设速度和建设质量提供保障。锁定“碳达峰”，智慧交通刻不容缓。ADAS作为自动驾驶的基础系统，是实现智慧交通的关键技术之一，其提升汽车主动安全性可以有效减少交通事故的发生和驾驶人员的伤

2022-05-04 19:04:22 2088

原创【数据集】KITTI raw 数据集获取方法

【数据集/爱数据】KITTI raw 数据集获取方法「爱数据」提供以下下载方式：迅雷极速下载脚本自动下载具体如下迅雷下载https://s3.eu-central-1.amazonaws.com/avg-kitti/raw_data/2011_09_26_calib.ziphttps://s3.eu-central-1.amazonaws.com/avg-kitti/raw_data/2011_09_26_drive_0001/2011_09_26_drive_0001_sync.z

2022-03-14 20:53:59 2428 4

原创【高性能计算】CUDA编程之OpenCV的应用（教程与代码-4）

imread命令将返回以蓝色、绿色和红色（BGR格式）开头的三个通道处理视频的main函数中需要做的第一件事是创建VideoCapture对象。 GPUCUDA模块中的函数都定义在cv::cuda命名空间中，将设备上配置给图像数据用的显存块作为其参数。gettickcount函数返回启动系统后经过的时间（以毫秒为单位）使用具有CUDA的opencv进行阈值滤波#include <iostream>#include "opencv2/opencv.hpp"int main (in.

2022-03-06 14:53:39 4182

原创【高性能计算】CUDA编程之性能测试与流的概念（教程与代码-3）

4 CUDA高级概念的使用4.1 性能测试与报错处理研究表明：如果块数量是GPU的流多处理器数量的两倍，则会给出最佳性能，不过，块和线程的数量和具体的算法实现有关。块中的线程数量应当被设定等于设备属性中每个块所能支持的最大线程数量，但实际上这些数值只是作为一种基本的准则来说的。常见的内核执行有3个瓶颈：卡在计算瓶颈上，卡在访存上和卡在延迟掩盖上。具体显卡上通过Profiler分析。哪种资源先达到瓶颈，就减少这种资源的使用（计算或者访存），而增加另外一种，并非一味地增加计算，或者减少访存。跨步式

2022-03-04 20:42:33 1009

原创【高性能计算】CUDA编程之线程存储与原子操作（教程与代码-2）

3 线程、同步、存储器3.1 线程与存储tid=blockIdx.x（当前块的ID）*blockDim.x（当前块里面的线程数量）+threadIdx.x（当前线程在块中的ID）gridDim.x*blockDim.x来计算，前者代表了本次启动的块的数量，而后者代表了每个块里面的线程数量，然后每次while循环，tid变量加上这个值，向后偏移以得到下个任务的索引所有线程都有一个寄存器堆，它是最快的。共享内存只能被块中的线程访问，但比全局内存块。全局内存是最慢的，但可以被所有的块访问。常量和纹

2022-02-25 13:09:01 988

原创【高性能计算】CUDA编程之环境配置与小试牛刀（教程与代码-1）

前言最近在学习linux环境下的CUDA编程，力求实现AI算法加速应用，整理些许笔记如下，代码经过调试，可以跑通。基础环境为mac本地，通过vscode远程控制ubuntu的开发板。1 CUDA开发环境环境配置Mac检查clang，检查所使用的mac是否自带了clang，敲命令行：clang -v // or clang --versionMacOS为了照顾用户习惯，也可以执行gcc命令，但MacOS10.12以后系统不自带gcc。如果没有的话则去安装，敲命令行：xcode-sele

2022-02-23 21:13:27 1617

原创【PyTorch】多卡训练/混合精度/分布式训练之踩坑指北

【pytorch】多卡训练/混合精度/分布式训练之踩坑指北1. 混合精度1.1 目的训练网络的基本上都是在N卡上面执行的，数据集比较大时，训练网络会耗费大量的时间。由于我们需要使用反向传播来更新具有细微变化的权重，因而我们在训练网络的过程中通常会选用FP32类型的数据和权重。混合精度训练，即当你使用N卡训练你的网络时，混合精度会在内存中用FP16做储存和乘法从而加速计算，用FP32做累加避免舍入误差。它的优势就是可以使你的训练时间减少一半左右。它的缺陷是只能在支持FP16操作的一些特定类型的显卡上

2021-12-20 18:06:07 7904 2

原创【数据集】光流常见数据集下载教程

光流常见数据集下载教程注意：以下均需科学上网，shitFlyingChairs地址：https://lmb.informatik.uni-freiburg.de/resources/datasets/FlyingChairs.en.html#flyingchairs注意：“Flying chairs” train-validation split (1 - train, 2 - validation)这个文件下载需要使用wgetwget https://lmb.informatik.uni-

2021-12-08 16:46:22 7266 3

原创【Python脚本】绘制常见激活函数代码\显示试验可视化对比进行拼接

【代码】【Python脚本】绘制常见激活函数代码\显示试验可视化对比进行拼接。

2021-11-17 11:31:07 1533 1

原创【C++】数据类型大小以及常见的ASCII码值

8 bit 比特 = 1 byte 字节变量首字母只能是下划线或者字母，其他为下划线、字母、数字变量不能是关键字命名不要用拼音，不要用单个英文单词代码如下int main(){ cout << "数据类型字节数字" << endl; cout << "char = " << sizeof(char) << endl; cout << "bool = " << sizeof(bool) <&l

2021-10-27 11:25:39 576 1

原创【Zotero】文献管理软件抓去中文文献引用

https://github.com/l0o0/translators_CN抓取知网等论文下载CNKI.js复制至transtlator

2021-10-15 10:24:11 1107

原创【OpenCV】特征匹配+Homography找目标

特征匹配+Homography找目标我们之前使用了查询图像，找到其中的一些特征点，我们取另外一个训练图像，找到里面的特征，我们找到它们中间最匹配的。简单说就是我们在一组图像里找一个目标的某个部分的位置。我们可以使用一个calib3d模块里的函数，cv2.findHomography().如果我们传了两个图像里的点集合，它会找到那个目标的透视转换。然后我们可以使用cv2.perspectiveTransform()来找目标，它需要至少4个正确的点来找变换。我们看过可能会有一些匹配是的错误而影响结果。哟啊

2021-07-02 21:57:04 1201

原创【Python脚本】AI系统开发常用的Python脚本合集

注意：os.path.dirname(path) 返回path的父路径；可嵌套使用，os.path.dirname(os.path.dirname(path) ) 返回父路径的父路径。可以选择用sys.path.insert(0,‘/path’)，这样新添加的目录会优先于其他目录被import检查。注意：os.path.abspath(file)返回的是脚本的绝对路径，即setting.py文件的绝对路径。

2021-06-15 15:05:12 1142 6

原创【PaperRead】无监督图像分类技术

无监督图像分类技术1.基于深度学习参考论文：A survey on Semi-, Self- and Unsupervised Techniques in Image Classification1.1 目标leverage unlabeled data in numerous ways:semi-supervisedself-supervisedweakly-supervised or metric learningmakes the training with few lab

2021-05-24 17:48:24 1816

原创【Pytorch】要求每个batch为相同的size

最近一个实验想多个size的sample送入网络中，但是每个batch要求size大小一致PyTorch中的DataLoader为了并行计算，要求batch内的图像矩阵必须有相同的size，但是却没有要求不同的batch之间必须是相同的size。你可以自定义一个sampler，让每个batch内部的图片的size尽量接近，然后再在collate_fn函数里面稍微resize一下（比如按batch内最大的图片尺寸进行resize），就可以实现不同size的图片的并行训练了。...

2021-04-28 14:51:56 3543 1

原创【职业规划】编程之美系列1

1-1#include <iostream>#include "windows.h"#include "stdlib.h"#include "math.h"#pragma execution_character_set("utf-8")#define GetCPUTickCount() _rdtsc()int main(){ const int samping_count = 200; const int total_amplitude = 300;

2020-07-23 10:31:13 250

原创【Linux】ubuntu18.04安装ROS避坑指南

最近需要学习ROS操作系统，决定安装在ubuntu上，但是诸多原因导致安装出现各种问题，先总结如下：先上官方安装教程！官方教程何其重要！ROS安装1.操作系统的选择在前在ubuntu16上安装，出现很多很多问题，现在回想应该是因为网络的原因。之后在deepin15安装，也失败，应该还是网络原因。在新发布的deepin20也安装失败，原因是ROS还不支持这个系统。现在在ubuntu18尝试安装，成功。2.换源由于国内的各种原因，这里不仅要换软件包的源，ROS的源也要换掉。ubuntu18换

2020-06-21 10:30:23 2595 2

原创【Linux】ROS机器人操作系统的安装使用和问题解决

1.ubuntu1）简介> Ubuntu是一个以桌面应用为主的Linux操作系统，其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词，意思是“人性”“我的存在是因为大家的存在"，是非洲传统的一种价值观。Ubuntu基于Debian发行版和Gnome桌面环境，而从11.04版起，Ubuntu发行版放弃了Gnome桌面环境，改为Unity。从前人们认为Linux难以安装、难以使用，在Ubuntu出现后这些都成为了历史。Ubuntu也拥有庞大的社区力量，用户可以方便地从社区获得帮助。UBUNTU

2020-05-26 15:28:50 3137 1

原创【SLAM】视觉里程计的入门实践

1.典型特征1）前言在SLAM系统问题中，根据经典的框架，分为：前端、后端、回环、建图四大部分。所谓前端，就是视觉里程计的部分，视觉里程计又称前端。是视觉构建中，前端的作用就是把图像的信息处理为相关后续可以使用的计算向量，就是通过图像得出相机的运动信息，为后续计算提供可能。> 图像处理中，特征点指的是图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。图像特征点在基于特征点的图像匹配算法中有着十分重要的作用。图像特征点能够反映图像本质特征，能够标识图像中目标物体。通过特征

2020-05-26 15:25:54 1084

原创【SLAM】对极几何学习与实践

一、对极约束1.前言问：对极约束是用来干嘛的？什么是对极约束？答：对于已经知道的图像2D点，通过若干点来匹配得出相机的运动情况，什么是对极约束呢，接下来我会介绍一下。如上图所示，可以简单的了解了什么是对极约束。对极约束是一种约束条件，是在我们不知道三维点P的真实空间三维位置的时候，通过相关的几何关系将三维P点在第二帧的图像上有可能的投影位置在约束条件下为一条直线上（就是极线）。然后，通过相关特征匹配，我们确定两个三维点p2与p1一样，都是空间点P的投影。2.约束我们通过相关计算，经过相机

2020-05-26 15:23:24 1154 1

原创【SLAM】三角测量与PNP

一、三角测量在深度估计中，双目视觉可以通过极限约束找到对应的三维点信息，在雷达中可以通过TOF找到深度信息，那么在单目视觉中，如何获得深度信息呢？这就需要三角测量。> 三角测量在三角学与几何学上是一借由测量目标点与固定基准线的已知端点的角度，测量目标距离的方法。而不是直接测量特定位置的距离（三边量测法）。当已知一个边长及两个观测角度时，观测目标点可以被标定为一个三角形的第三个点。三角量测亦可意指为超大三角形系统的精确测量，称作三角量测网络。这源自于威理博·司乃耳于1615-17的作品，他展现

2020-05-26 15:02:47 2208

原创【SLAM】G2OBA优化及ICP的学习实践

1.G2O在之前的章节我已经讲过了G2O（General Graph Optimization）的相关原理以及应用，这次的BA优化问题呢，我们也可以转化为一个G2O来求解。G2O（General Graph Optimization）———— 通用图优化。G2O（General Graph Optimization）的核里带有种类多样的求解器，而它的顶点、边的类型也是多种多样。我们可以自己定义顶点和边。总的来说，如果一个优化问题能够表达成图（顶点与边），那么这个问题就可以用G2O（General G

2020-05-26 14:47:04 1549

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

最全pid控制算法的C语言实现

数码管显示stm32调试工程代码

Labview串口读写.vi

mpu6050stm32程序驱动程序工程代码

智能加湿器完美运行程序代码带说明.zip

rs232串口通信万能工程代码模板stm32

万能300简历+信纸100

STM32F10X固件安装包较低版本1.0.56.pack

500个超全会声会影滤镜遮罩

超声波测距stm32程序工程代码

pwm呼吸灯stm32工程代码

ds18b20+打印工程代码stm32

ov670摄像头模块资料代码书籍说明书stm32

满意pid控制设计理论与方法

pid算法原理及调整规律

空空如也