上善若水啦-CSDN博客

原创 SIMD指令集加速

CPU指令集加速多用于同质化、独立的运算，例如算法中的for循环部分。SIMD, Single Instruction Multiple Data, 单指令多数据流，是一种向量化运算。不同的SIMD指令集支持的硬件寄存器位宽不同，一般有128,256,512等宽度。依据位宽，不同数据类型装载个数不同。装载16位数据、32位数据、64位数据示意图：装载一组数据之后，寄存器进行数据的运算，得到新的数据：一些典型的算子有装载、加减乘除、归并、带掩膜运算、数据拼合与拆分等。

2025-05-20 16:34:39 1248

原创线性代数代码实现

python// c++// opencv版// Eigen版// 逐元素赋值。

2025-05-16 19:27:44 538

原创 [PyTorch] 深度学习网络的几个关键模块

ResNet, FCN, YOLO, UNet, MobileNet等。MHA，多头注意力；一些变体，MQA, GQA, MLA等。

2025-05-14 21:26:51 234

原创 [PyTorch] 搭建经典网络架构

以下将按照逐个脉络展开，吸取这些网络架构中演进的精华部分，进行模型的搭建。

2025-05-02 17:56:41 242

原创 [PyTorch] 搭建LeNet5

反向传播方法训练的多层神经网络是基于梯度的学习方法的最好例子。给定一个合适的网络架构，基于梯度的学习方法可以合成一个复杂的决策面，这个决策面可以对高维模式进行分类。本文综述了应用于手写数字识别的各种方法，并在一个标准的手写数字识别任务上进行了比较。卷积神经网络专门为二维形状的可变形设计，被证明优于所有其他技术。图变换网络，一种新的学习范式，允许如文档识别等系统使用基于梯度的方法进行全局训练，以便最小化一个整体性能度量。

2025-05-01 23:07:29 195

原创 [pytorch] 搭建自动编码器

自动编码器（AutoEncoder，AE），通过无监督的方式来学习一组数据的有效编码。假设有一组D维的样本，自编码器将这组数据可以映射到M维，并希望这组编码可以重构出原来的D维样本。自编码器分两部分：编码器Encoder和解码器Decoder。自动编码器的学习目标是最小化输入样本与重构样本之间的重构误差。在训练backbone方面，最简版本可以是MLP，也可以改为几个简单的卷积层池化层等，以及可以结合上Transformer的一些设计理念。

2025-04-30 17:15:00 628