自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

发狂的小花的博客

全栈式AI开发商

  • 博客(124)
  • 收藏
  • 关注

原创 模型量化面试,太难了

模型量化是一种将浮点型参数转换为定点型参数的技术,以减少模型的存储和计算复杂度。

2024-07-23 23:22:42 578

原创 AI+HPC 部署优化面试范围分享

C/C++、多态、模板、引用、智能指针、STL、内存管理等,会持续深入,甚至会让实现一些比如:解决循环引用、智能指针的实现。AI的基础知识,整体的训练的流程、算子的计算对比、深度学习的基本知识,pytorch等框架,网络结构,目前流行的网络结构、transformer、YoLo系列、LLMs、BEV、GPTs、BERTs等。

2024-07-20 22:33:39 1066

原创 Pytorch深度学习实践笔记12(b站刘二大人)

用于处理一些具有前后关系的序列问题。循环神经网络(Recurrent Neural Network, RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。常见的循环神经网络包括双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)。循环神经网络的真正形式是左边这种,但是也常表现为右边这种,一般隐藏层初始状态为0,当输入x1后,计算出下一个状态h1,

2024-05-28 15:25:30 967

原创 Pytorch深度学习实践笔记11(b站刘二大人)

(1)用来对通道数进行降维或升维,保持Feature Map长宽不变,减少计算量(2)实现跨通道信息的融合(3)可以保持输入和输出网络结构不变的同时,融合特征

2024-05-27 22:42:38 372

原创 Pytorch深度学习实践笔记10(b站刘二大人)

CNN,用于特征提取,但是计算量大,卷积算子是一个计算密集型算子,工业界优化卷积算子是一个重大的任务。有LeNet、AlexNet、VGG系列、ResNet、很多深度学习框架都提供了丰富的CNN模型实现个训练的接口。

2024-05-27 22:40:28 895

原创 Pytorch深度学习实践笔记9(b站刘二大人)

one-hot 编码用于将离散的分类标签转换为二进制向量,关键是离散的分类和二进制向量。多分类问题利用Softmax实现,SoftMax 可以用来做分类,输出属于某个类别的概率

2024-05-27 16:56:34 637 3

原创 Pytorch深度学习实践笔记8(b站刘二大人)

batch_size=4表示每次取四个数据shuffle= True表示开启数据集随机重排,即每次取完数据之后,打乱剩余数据的顺序,然后再进行下一次取num_workers=0表示在主进程中加载数据而不使用任何额外的子进程,如果大于0,表示开启多个进程,进程越多,处理数据的速度越快,但是会使电脑性能下降,占用更多的内存drop_last=False表示不丢弃最后一个批次,假设我数据集有10个数据,我的batch_size=3,即每

2024-05-27 16:52:29 898

原创 Pytorch深度学习实践笔记7(b站刘二大人)

上述实验,我使用Adam前期可以比较迅速的收敛,使得loss收敛迅速,并且没有过拟合,一般Adam由于其特性出现过拟合的概率比SGD高。我用SGD优化器训练,训练了100万次才勉强达到Adam的1万次结果,由此可以看出Adam的收敛速度比SGD快很多,但是由于SGD的噪声比较大,而且其每次计算一个梯度或者一小批量的梯度,使得泛化能力强,适应于大型数据的训练中。

2024-05-27 11:29:30 937

原创 Pytorch深度学习实践笔记6(b站刘二大人)

softmax就是将一些大的数字拉伸到0~1之间,而且使得大的数所占的比例更大,小的数所占的比例更小,这样如果每一个原始的数据代表score的话,将其总分控制在0~1之间,可以进一步使用交叉熵函数来计算loss。 sigmoid

2024-05-26 13:31:07 887

原创 Pytorch深度学习实践笔记5(b站刘二大人)

使用Pytorch实现,步骤如下:PyTorch Fashion(风格) prepare dataset design model using Class ,前向传播,计算y_pred Construct loss and optimizer,计算loss,Optimizer 更新w Training cycle (forward,backward,update)

2024-05-26 01:00:36 860

原创 Pytorch深度学习实践笔记4(b站刘二大人)

Back propagation (BP),训练神经网络的目标是优化代价函数cost,使得cost找到以一个全局或者局部最优值。让cost尽可能的接近0,这样得到的weights和bias是最好的,由于需要不断的调整参数让cost收敛,cost在梯度的相反反向下降最快,所以提出了BP算法,就是来计算weights和bias的梯度(偏导数的,加速训练时的收敛速度,避免无效的训练。

2024-05-24 19:06:21 843

原创 Pytorch深度学习实践笔记3(b站刘二大人)

mini-batch GD采取了一个折中的方法,每次选取一定数目(mini-batch)的样本组成一个小批量样本,然后用这个小批量来更新梯度,这样不仅可以减少计算成本,还可以提高算法稳定性。

2024-05-24 15:11:51 1242

原创 Pytorch深度学习实践笔记2(b站刘二大人)

监督学习(supervised learning):打标签的数据无监督学习:无标注数据,模型自己去学习数据的特征,输出参数,然后推理输出

2024-05-24 15:07:33 932

原创 Pytorch深度学习实践笔记1(b站刘二大人)

多层感知机(MLPs):输入层、隐藏层、输出层构成输入层:接收数据隐藏层:通过学习特征,forward,loss,激活函数,bp、优化器更新参数输出层:输出满足一定训练后的参数、weights 和bias反向传播:Back Propagation (链式求导法则,比较简单)

2024-05-24 14:58:09 676

原创 激活函数大全

激活函数大全

2024-05-15 23:46:25 114

原创 PPQ模型量化工具

PPQ 工具安装

2024-05-14 22:35:59 275

原创 剑指offer-leetcode题目对应

剑指Offer题集(力扣)-CSDN博客

2024-05-11 20:57:14 235 3

原创 数据集汇总

计算机视觉方面的数据集的汇总。

2024-04-14 11:47:27 2077

原创 Pytorch 安装报错解决

import torchvision No module named ‘_lzma‘ 解决

2024-03-26 18:15:09 660

原创 性能优化(CPU优化技术)ARM Neon 详解

NEON是指适用于Arm Cortex-A系列处理器的一种高级SIMD(单指令多数据)扩展指令集。NEON 技术可加速多媒体和信号处理算法(如视频编码/解码、2D/3D 图形、游戏、音频和语音处理、图像处理技术、电话和声音合成)。Single Instruction Multiple Data (SIMD)顾名思义就是“一条指令处理多个数据(一般是以2为底的指数数量)”的并行处理技术

2024-03-19 14:28:41 1275

原创 性能优化(CPU优化技术)-NEON指令详解

ARM NEON 是 ARM 平台下的 SIMD 指令集,利用好这些指令可以使程序获得很大的速度提升。不过对很多人来说,直接利用汇编指令优化代码难度较大,这时就可以利用 ARM NEON intrinsic 指令,它是底层汇编指令的封装,不需要用户考虑底层寄存器的分配,但同时又可以达到原始汇编指令的性能。

2024-03-19 14:22:16 2762

原创 图像处理学习笔记(一)

图像处理学习笔记(一)

2024-03-19 09:55:12 1184

原创 ISP技术综述

ISP是Image Signal Processor 的简称,也就是图像信号处理器。DSP是Digital Signal Processor 的缩写,也就是数字信号处理器。ISP一般用来处理Image Sensor(图像传感器)的输出数据,如做AEC(自动曝光控制)、AGC(自动增益控制)、AWB(自动白平衡)、色彩校正、Lens Shading、Gamma 校正、祛除坏点、Auto Black Level、Auto White Level等等功能的处理。

2024-03-19 09:41:19 2777

原创 高斯函数详解

​高斯函数广泛应用于统计学领域,用于表述正态分布,在信号处理领域,用于定义高斯滤波器,在图像处理领域,二维高斯核函数常用于高斯模糊Gaussian Blur,在数学领域,主要是用于解决热力方程和扩散方程,以及定义Weiertrass Transform。​

2024-03-17 22:57:36 2977

原创 深度学习神经网络训练环境配置以及演示

深度学习神经网络训练环境配置以及演示

2024-03-15 16:30:26 1304

原创 CUDA Profiling的安装配置使用(nvvp nvprof nsight)

nvpp nprof nsight的安装配置使用,在Ubuntu18上

2024-03-13 00:41:05 1258

原创 JDK8和JDK11在Ubuntu18上切换(解决nvvp启动报错)

在Ubuntu 18.04上切换JDK 8和JDK 11,可以通过更新update-alternatives工具配置的链接,这是解决nvvp启动报错的关键

2024-03-12 16:56:01 868

原创 CUDA环境配置在Ubuntu18

NVIDIA CUDA 环境配置在Ubuntu18上

2024-03-12 09:30:00 2055

原创 CUDA入门之统一内存

借助 CUDA 6,NVIDIA 引入了 CUDA 平台历史上最引人注目的编程模型改进之一,即统一内存。在当今典型的 PC 或集群节点中,CPU 和 GPU 的内存在物理上是不同的,并由 PCI-Express 总线分开。在 CUDA 6 之前,程序员就是这样看待事物的。CPU 和 GPU 之间共享的数据必须在两个内存中分配,并由程序在它们之间显式复制。这给 CUDA 程序增加了很多复杂性。

2024-03-11 17:10:05 973

原创 高性能计算工程师面试经验

高性能计算面试

2024-03-11 16:48:16 1113 2

原创 算法部署优化工程师面试题整理

算法部署优化面试,AI算子优化

2024-03-11 16:27:01 2083

原创 CUDA基本入门教程

GPU并不是一个独立运行的计算平台,而需要与CPU协同工作,可以看成是CPU的协处理器,因此当我们在说GPU并行计算时,其实是指的基于CPU+GPU的异构计算架构。在异构计算架构中,GPU与CPU通过PCIe总线连接在一起来协同工作,CPU所在位置称为为主机端(host),而GPU所在位置称为设备端(device)

2024-03-10 23:25:05 1152

原创 ISP基础概述

ISP (Image Signal Processor),即图像处理,主要作用是对前端图像传感器输出的信号做后期处理,主要功能有线性纠正、噪声去除、坏点去除、内插、白平衡、自动曝光控制等,依赖于ISP才能在不同的光学条件下都能较好的还原现场细节。

2024-03-07 14:27:37 1160

原创 Intel CPU体系结构

几乎所有的冯·诺伊曼型计算机的 CPU,其工作都可以分为 5 个阶段:取指令、指令译码、执行指令、访存取数、结果写回。

2024-03-06 23:10:23 961

原创 计算机体系结构:VLIW

VLIW是将多条互相独立的指令,通过软件(编译器)的方式打包(Pack)在一起,我们将打包好的多条指令,称为instruction bundle。取指模块根据打包好的指令,送入各自独立的功能部件,并行执行

2024-03-06 22:25:12 1251

原创 滤波和卷积的区别

图像处理中滤波和卷积原理上相似,但是在实现的细节上存在一些区别。滤波操作就是图像对应像素与掩膜(mask)的乘积之和。卷积操作也是卷积核与图像对应位置的乘积和。但是卷积操作在做乘积之前,需要先将卷积核翻转180度,之后再做乘积。

2024-03-04 17:05:52 1063

原创 DSP软件架构

主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线,从而使数据的吞吐率提高了一倍。由于程序和数据在两个分开的空间,因此取指和执行能完全重叠。

2024-03-01 17:43:10 1119

原创 直观理解卷积

从数学上讲,卷积就是一种运算。某种运算,能被定义出来,至少有以下特征:1.首先是抽象的、符号化的2.其次,在生活、科研中,有着广泛的作用

2024-03-01 17:00:52 1177

原创 自动驾驶技术详解

本节我们先从广泛应用于自动驾驶的几个任务出发介绍2D视觉感知算法,包括基于图像或视频的2D目标检测和跟踪,以及2D场景的语义分割。近些年,深度学习渗透到视觉感知的各个领域,取得不错的成绩,因此,我们梳理了一些经典的深度学习算法。

2024-03-01 12:05:13 1659

原创 计算机体系架构初步入门

中央处理器(Central Processing Unit,简称CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。CPU自产生以来,在逻辑结构、运行效率以及功能外延上取得了巨大发展。​

2024-02-21 16:19:23 1487

ARM Neon 整体介绍

本资源主要是对ARM Neon技术的整体技术,提供对ARM Neon的技术原理、技术实现、技术应用,性能优化方面比较全面的指导。 ARM Neon技术原理 ARM Neon性能优化 ARM Neon在多媒体处理中应用 ARM Neon在人工智能领域应用 ARM Neon技术挑战与未来发展

2024-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除