- 博客(16)
- 收藏
- 关注
原创 SIMD指令集加速
CPU指令集加速多用于同质化、独立的运算,例如算法中的for循环部分。SIMD, Single Instruction Multiple Data, 单指令多数据流,是一种向量化运算。不同的SIMD指令集支持的硬件寄存器位宽不同,一般有128,256,512等宽度。依据位宽,不同数据类型装载个数不同。装载16位数据、32位数据、64位数据示意图:装载一组数据之后,寄存器进行数据的运算,得到新的数据:一些典型的算子有装载、加减乘除、归并、带掩膜运算、数据拼合与拆分等。
2025-05-20 16:34:39
987
原创 [PyTorch] 深度学习网络的几个关键模块
ResNet, FCN, YOLO, UNet, MobileNet等。MHA,多头注意力;一些变体,MQA, GQA, MLA等。
2025-05-14 21:26:51
188
原创 [PyTorch] 搭建LeNet5
反向传播方法训练的多层神经网络是基于梯度的学习方法的最好例子。给定一个合适的网络架构,基于梯度的学习方法可以合成一个复杂的决策面,这个决策面可以对高维模式进行分类。本文综述了应用于手写数字识别的各种方法,并在一个标准的手写数字识别任务上进行了比较。卷积神经网络专门为二维形状的可变形设计,被证明优于所有其他技术。图变换网络,一种新的学习范式,允许如文档识别等系统使用基于梯度的方法进行全局训练,以便最小化一个整体性能度量。
2025-05-01 23:07:29
162
原创 [pytorch] 搭建自动编码器
自动编码器(AutoEncoder,AE),通过无监督的方式来学习一组数据的有效编码。假设有一组D维的样本,自编码器将这组数据可以映射到M维,并希望这组编码可以重构出原来的D维样本。自编码器分两部分:编码器Encoder和解码器Decoder。自动编码器的学习目标是最小化输入样本与重构样本之间的重构误差。在训练backbone方面,最简版本可以是MLP,也可以改为几个简单的卷积层池化层等,以及可以结合上Transformer的一些设计理念。
2025-04-30 17:15:00
447
原创 CMake编译与anaconda冲突问题
linux下开发环境,经常涉及到c++语言的cmake及make等编译;也经常需要用到anaconda的python集成环境使用。pcl等库的编译偶尔会遇上链接到anaconda目录下的某些库,存在一些冲突问题。
2023-12-24 18:24:41
739
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人