自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

发狂的小花的博客

一个未来全栈工程师的升级之路!

  • 博客(114)
  • 收藏
  • 关注

原创 Pytorch深度学习实践笔记4

Back propagation (BP),训练神经网络的目标是优化代价函数cost,使得cost找到以一个全局或者局部最优值。让cost尽可能的接近0,这样得到的weights和bias是最好的,由于需要不断的调整参数让cost收敛,cost在梯度的相反反向下降最快,所以提出了BP算法,就是来计算weights和bias的梯度(偏导数的,加速训练时的收敛速度,避免无效的训练。

2024-05-24 19:06:21 387

原创 Pytorch深度学习实践笔记3

mini-batch GD采取了一个折中的方法,每次选取一定数目(mini-batch)的样本组成一个小批量样本,然后用这个小批量来更新梯度,这样不仅可以减少计算成本,还可以提高算法稳定性。

2024-05-24 15:11:51 677

原创 Pytorch深度学习实践笔记2

监督学习(supervised learning):打标签的数据无监督学习:无标注数据,模型自己去学习数据的特征,输出参数,然后推理输出

2024-05-24 15:07:33 384

原创 Pytorch深度学习实践笔记1

多层感知机(MLPs):输入层、隐藏层、输出层构成输入层:接收数据隐藏层:通过学习特征,forward,loss,激活函数,bp、优化器更新参数输出层:输出满足一定训练后的参数、weights 和bias反向传播:Back Propagation (链式求导法则,比较简单)

2024-05-24 14:58:09 395

原创 激活函数大全

激活函数大全

2024-05-15 23:46:25 89

原创 PPQ模型量化工具

PPQ 工具安装

2024-05-14 22:35:59 229

原创 剑指offer-leetcode题目对应

剑指Offer题集(力扣)-CSDN博客

2024-05-11 20:57:14 102 3

原创 数据集汇总

计算机视觉方面的数据集的汇总。

2024-04-14 11:47:27 1992

原创 import torchvision No module named ‘_lzma‘【已解决】

import torchvision No module named ‘_lzma‘ 解决

2024-03-26 18:15:09 430

原创 性能优化(CPU优化技术)ARM Neon 详解

NEON是指适用于Arm Cortex-A系列处理器的一种高级SIMD(单指令多数据)扩展指令集。NEON 技术可加速多媒体和信号处理算法(如视频编码/解码、2D/3D 图形、游戏、音频和语音处理、图像处理技术、电话和声音合成)。Single Instruction Multiple Data (SIMD)顾名思义就是“一条指令处理多个数据(一般是以2为底的指数数量)”的并行处理技术

2024-03-19 14:28:41 1105

原创 性能优化(CPU优化技术)-NEON指令详解

ARM NEON 是 ARM 平台下的 SIMD 指令集,利用好这些指令可以使程序获得很大的速度提升。不过对很多人来说,直接利用汇编指令优化代码难度较大,这时就可以利用 ARM NEON intrinsic 指令,它是底层汇编指令的封装,不需要用户考虑底层寄存器的分配,但同时又可以达到原始汇编指令的性能。

2024-03-19 14:22:16 1713

原创 图像处理学习笔记(一)

图像处理学习笔记(一)

2024-03-19 09:55:12 1150

原创 ISP技术综述

ISP是Image Signal Processor 的简称,也就是图像信号处理器。DSP是Digital Signal Processor 的缩写,也就是数字信号处理器。ISP一般用来处理Image Sensor(图像传感器)的输出数据,如做AEC(自动曝光控制)、AGC(自动增益控制)、AWB(自动白平衡)、色彩校正、Lens Shading、Gamma 校正、祛除坏点、Auto Black Level、Auto White Level等等功能的处理。

2024-03-19 09:41:19 1045

原创 高斯函数详解

​高斯函数广泛应用于统计学领域,用于表述正态分布,在信号处理领域,用于定义高斯滤波器,在图像处理领域,二维高斯核函数常用于高斯模糊Gaussian Blur,在数学领域,主要是用于解决热力方程和扩散方程,以及定义Weiertrass Transform。​

2024-03-17 22:57:36 1805

原创 深度学习神经网络训练环境配置以及演示

深度学习神经网络训练环境配置以及演示

2024-03-15 16:30:26 1126

原创 CUDA Profiling的安装配置使用(nvvp nvprof nsight)

nvpp nprof nsight的安装配置使用,在Ubuntu18上

2024-03-13 00:41:05 1011

原创 JDK8和JDK11在Ubuntu18上切换(解决nvvp启动报错)

在Ubuntu 18.04上切换JDK 8和JDK 11,可以通过更新update-alternatives工具配置的链接,这是解决nvvp启动报错的关键

2024-03-12 16:56:01 809

原创 CUDA环境配置在Ubuntu18

NVIDIA CUDA 环境配置在Ubuntu18上

2024-03-12 09:30:00 1730

原创 CUDA入门之统一内存

借助 CUDA 6,NVIDIA 引入了 CUDA 平台历史上最引人注目的编程模型改进之一,即统一内存。在当今典型的 PC 或集群节点中,CPU 和 GPU 的内存在物理上是不同的,并由 PCI-Express 总线分开。在 CUDA 6 之前,程序员就是这样看待事物的。CPU 和 GPU 之间共享的数据必须在两个内存中分配,并由程序在它们之间显式复制。这给 CUDA 程序增加了很多复杂性。

2024-03-11 17:10:05 897

原创 高性能计算工程师面试经验

高性能计算面试

2024-03-11 16:48:16 994 2

原创 算法部署优化工程师面试题整理

算法部署优化面试,AI算子优化

2024-03-11 16:27:01 1878

原创 CUDA基本入门教程

GPU并不是一个独立运行的计算平台,而需要与CPU协同工作,可以看成是CPU的协处理器,因此当我们在说GPU并行计算时,其实是指的基于CPU+GPU的异构计算架构。在异构计算架构中,GPU与CPU通过PCIe总线连接在一起来协同工作,CPU所在位置称为为主机端(host),而GPU所在位置称为设备端(device)

2024-03-10 23:25:05 888

原创 ISP基础概述

ISP (Image Signal Processor),即图像处理,主要作用是对前端图像传感器输出的信号做后期处理,主要功能有线性纠正、噪声去除、坏点去除、内插、白平衡、自动曝光控制等,依赖于ISP才能在不同的光学条件下都能较好的还原现场细节。

2024-03-07 14:27:37 918

原创 Intel CPU体系结构

几乎所有的冯·诺伊曼型计算机的 CPU,其工作都可以分为 5 个阶段:取指令、指令译码、执行指令、访存取数、结果写回。

2024-03-06 23:10:23 879

原创 计算机体系结构:VLIW

VLIW是将多条互相独立的指令,通过软件(编译器)的方式打包(Pack)在一起,我们将打包好的多条指令,称为instruction bundle。取指模块根据打包好的指令,送入各自独立的功能部件,并行执行

2024-03-06 22:25:12 918

原创 滤波和卷积的区别

图像处理中滤波和卷积原理上相似,但是在实现的细节上存在一些区别。滤波操作就是图像对应像素与掩膜(mask)的乘积之和。卷积操作也是卷积核与图像对应位置的乘积和。但是卷积操作在做乘积之前,需要先将卷积核翻转180度,之后再做乘积。

2024-03-04 17:05:52 1042

原创 DSP软件架构

主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线,从而使数据的吞吐率提高了一倍。由于程序和数据在两个分开的空间,因此取指和执行能完全重叠。

2024-03-01 17:43:10 950

原创 直观理解卷积

从数学上讲,卷积就是一种运算。某种运算,能被定义出来,至少有以下特征:1.首先是抽象的、符号化的2.其次,在生活、科研中,有着广泛的作用

2024-03-01 17:00:52 1033

原创 自动驾驶技术详解

本节我们先从广泛应用于自动驾驶的几个任务出发介绍2D视觉感知算法,包括基于图像或视频的2D目标检测和跟踪,以及2D场景的语义分割。近些年,深度学习渗透到视觉感知的各个领域,取得不错的成绩,因此,我们梳理了一些经典的深度学习算法。

2024-03-01 12:05:13 1370

原创 计算机体系架构初步入门

中央处理器(Central Processing Unit,简称CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。CPU自产生以来,在逻辑结构、运行效率以及功能外延上取得了巨大发展。​

2024-02-21 16:19:23 1402

原创 一文深入理解cache技术

存储器是分层次的,离CPU越近的存储器,速度越快,每字节的成本越高,同时容量也因此越小。寄存器速度最快,离CPU最近,成本最高,所以个数容量有限,其次是高速缓存(缓存也是分级,有L1,L2等缓存),再次是主存(普通内存),再次是本地磁盘。​寄存器的速度最快,可以在一个时钟周期内访问,其次是高速缓存,可以在几个时钟周期内访问,普通内存可以在几十个或几百个时钟周期内访问。​图中所示的是三级缓存的架构,可以看到,级别越小的缓存,越接近CPU,但访问速度也会越慢。

2024-02-21 11:11:40 994

原创 CPU-Cache结构查看

参考【本文主要介绍cpu的cache查看,以供读者能够理解该技术的定义、原理、应用。🎬:一个全栈工程师的升级之路!🎀CSDN主页🌄人生秘诀:学习的本质就是极致重复!

2024-01-31 21:35:20 375 1

原创 超线程技术

本文主要介绍超线程技术,以供读者能够理解该技术的定义、原理、应用。🎬:一个全栈工程师的升级之路!🎀CSDN主页🌄人生秘诀:学习的本质就是极致重复!是一种用于提高性能的技术,它可以让单个CPU核心同时执行两个线程,从而实现更高的效率。超线程技术已经得到广泛的应用,在计算和领域中具有重要的作用。

2024-01-31 12:10:12 451

原创 AI边缘计算(嵌入式AI)硬件信息汇总

使用过Movidius NCS神经计算棒的同学应该清楚,NCS做推理是要将文件传输到NCS神经计算棒中处理的,而目前英特尔提供的SDK只支持USB2.0的速率传输,所以你现在使用那根USB3.0接口的神经计算棒,无论在USB2.0的主机(如树莓派)上还是USB3.0的主机(如UP Squared Board)上,速度其实还是没什么差别。Mobileye的产品覆盖了全球50个国家,据官方资料显示,截至2015年底,Mobileye在全球有1000万的装载量,到2016年底会有273款车的SOP的合同。

2024-01-31 00:48:05 1306

原创 性能优化-高通的Hexagon DSP和NPU

手机必须处理电信和视听处理,同时最大限度地延长电池寿命。数字信号处理器 (DSP) 使用专用硬件从 CPU 卸载这些任务,从而降低功耗。高通公司的 Hexagon 在公司 Snapdragon 产品中卸载信号处理方面有着悠久的历史。为了应对近期机器学习应用的兴起,高通正在为 Hexagon 添加矩阵乘法功能。

2024-01-23 13:50:40 1708 4

原创 性能优化-OpenCL kernel 开发

OpenCL kernel 部分的介绍。OpenCL kernel 是运行在设备端的,采用OpenCL C 语言进行开发,本文接下来首先给出一个简单的OpenCL kernel 样例,然后对OpenCL C 语言的各个部分做详细的说明,最后会给出一个完整的OpenCL程序实例,相信通过本文的学习之后大家应该可以在实际工作中使用OpenCL来优化程序的性能。

2024-01-22 16:08:21 1281

原创 性能优化-OpenCL运行时API介绍

本文首先给出 OpenCL 运行时 API 的整体编程流程图,然后针对每一步介绍使用的运行时 API,讲解 API 参数,并给出编程运行实例。总结运行时 API 使用的注意事项。最后展示基于 OpenCL 的图像转置代码。在 865 平台下,对于 4096x4096 的 8 位图像加速比达到 10 倍以上。

2024-01-22 15:59:58 1090

原创 性能优化(CPU优化技术)-NEON开发进阶

在前面的"CPU 优化技术"系列文章中我们对NEON做了系统的介绍和说明,包括SIMD和NEON概念,NEON自动向量化以及NEON intrinsic指令集等。但是只掌握这些还不足以编写一个性能完善的NEON程序,在实际的NEON优化工作中我们会遇到如何将标量处理转换为向量处理,如何更高效的处理图像的边界区域等问题。接下来我们会针这些问题进行介绍和说明,让大家可以在实际工作中使用NEON来优化程序的性能。

2024-01-22 15:52:20 964

原创 性能优化(CPU优化技术)-NEON指令介绍

本文接下来会详细的介绍 Armv7 和 Armv8 架构下 NEON 向量寄存器、NEON 汇编指令格式、NEON Intrinsics 指令格式、常用的 Intrinsics 指令以及作用、在 x86 平台调试 NEON 代码,最后针对几个常用的 Intrinsics 指令结合实例进行说明。相比于汇编指令,NEON Intrinsics 是一种更简单的编写 NEON 代码的方法,NEON Intrinsics 类似于 C 函数调用,在编译时由编译器替换为相应的汇编指令,使用时需要包含头文件。

2024-01-22 15:46:53 1679

原创 性能优化(CPU优化技术)-NEON 自动向量化

总之,虽然通过自动向量化技术我们可以在一定程度上降低向量化编程难度,增强代码的可移植性,但是不能完全依赖于编译器,而且有时为了获得更高性能的代码,还是需要通过intrinsic甚至neon汇编进行编程。neon 对 64 位长数据类型的支持有限,且较小的数据位宽有更高的并行度,应尽量选用较小的数据类型。当数据连续存储在结构体中时,可以进行循环合并操作,即在一个循环内处理临近的数据,提高缓存命中率。基于一定的编程优化准则,可以更好的协助编译器完成自动向量化的工作,获得理想的性能状态。

2024-01-22 15:39:43 884

ARM Neon 整体介绍

本资源主要是对ARM Neon技术的整体技术,提供对ARM Neon的技术原理、技术实现、技术应用,性能优化方面比较全面的指导。 ARM Neon技术原理 ARM Neon性能优化 ARM Neon在多媒体处理中应用 ARM Neon在人工智能领域应用 ARM Neon技术挑战与未来发展

2024-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除