王飞95-CSDN博客

原创 D3D处理2D图像: NV12格式及其转换（1）

1. NV12格式介绍YUV 4:2:0是视频和图片编码和解码最常用的输入和输出格式。而在D3D中NV12是支持最广泛的YUV 4:2:0格式，主要因为它在GPU中处理的效率最高，只有两个plane, 而且UVplane和Luminance(Y) plane的pitch(stride)相等，高度为前者一半，所以在很多场景都是可以一起处理，而不需要分为两个或者三个plane来分别进行操作，不管是渲染，拷贝，还是在graphic pipeline中通过映射成其他格式，都非常方便和高效。反观其他的YUV格式，

2022-05-21 16:23:43 5317 2

原创 D3D处理2D图像：2D Quad坐标系介绍（2）

常见的一段代码在以前的实现中，我们需要自己组织Vertex，对于2D Quad场景来说，一般组织这样的一组数据： const ScreenVertex svDefault[4] = { // x y z w u v { { -1.0f, 1.0f, 0.5f, 1.0f },{ 0.0f, 0.0f } }, // 0 { { 1.0f, 1.0f, 0.5f, 1.0f },{ 1.0f, 0.0f } }, // 1 { {

2022-05-16 23:01:51 379

原创 D3D处理2D图像：2D Quad坐标系介绍（1）

Direct3DDirect3D是Windows平台上开发硬件加速的程序一个架构，它提供了图形处理和渲染加速视频编解码加速并行计算加速Direct3D和OpenGL非常相似，很多概念、术语和流程基本上是相通的，在显卡(GPU)内部的加速原理基本上差不多，它不仅是Windows和XBox游戏开发的渲染基本技术架构，我们还能利用显卡(GPU)强大的计算能力，为高清视频、图像和图形编解码，渲染和特效处理提供实时和流畅的处理能力，是Windows平台上视频和图像处理进阶的必备编程技术。本系列主要介绍

2022-05-15 22:13:30 797

原创 AVX2 初探

Intel最近发布了AVX-512，据说对浮点运算有很大提升，我的机器目前不支持AVX-512，但是支持AVX2，按照之前Intel给出的数据，据说能提速将近8倍:Introduction to Intel® Advanced Vector Extensions测试环境可能这篇文章有点偏老，我这边也想验证一下没有优化的C/C++浮点运算和AVX2优化后的浮点运算到底快多少。这是我机器的配置：Manufacturer GenuineIntelName Intel Core i7 7820

2021-04-09 16:57:13 3526

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（ROI）

总体架构ROI对从RPN中选出来的1000个Proposal Boxes，以及从FPN中输出的多层特征图进行ROI Pool，对于box中的对象进行分类，并再次进行Proposal Boxes偏移（offset/delta）数值回归，产生新的分数和再次微调的box，以及得到标签，最后再次进行非极大值抑制(NMS)：基于FPN的ROI处理会比传统的Faster RCNN多出一些步骤，要更加复杂一些。主要包含如下步骤：Box ROI Pool，根据1000个Proposal box的面积，确定选择在

2020-10-11 22:31:47 2948 2

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（RPN）

总体架构RPNHead

2020-10-08 20:46:42 3560 2

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（总体结构）

总体结构首先花了点时间把整个代码架构理了理，画了如下这张图：主体部分分为这几大部分：Transform，主要是对输入图像进行转换Resnet-50，主要是特征提取FPN，主要是构建特征金字塔给RPN提供输入特征RPN，主要是产生region proposalsROI，主要是检测object区域，各个区域的labels以及各个区域的scoresTransform请看torchvision Faster-RCNN ResNet-50 FPN代码解析（图片转换和坐标）Resnet-50

2020-10-07 17:52:10 12163 4

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（图片转换和坐标）

图像转换在torchvision\models\detection\faster_rcnn.py构造函数中，指定了image mean/std，这些前面笔记中都介绍了原因，这里不多说了，这里还指明了最大和最小的图像长宽，这里是800和1333，表明转换出来的图像不能超出800x1333或者1333x800这个尺寸。class FasterRCNN(GeneralizedRCNN): def __init__(self, backbone, num_classes=None,

2020-10-04 20:13:58 3411 1

原创 libtorch学习笔记（17）- ResNet50 FPN以及如何应用于Faster-RCNN

FPN，即Feature Pyramid Networks，是一种多尺寸，金字塔结构深度学习网络，使用了FPN的Faster-RCNN，其测试结果超过大部分single-model，包括COCO 2016年挑战的获胜模型。其优势是小尺寸对象的检测。torchvision中包含了ResNet50 FPN完整的源代码（这里参考的是torchvision 0.7.0里面的代码），这里就解读一下对应的实现，为了解释流畅，尽量采用ResNet50中的layer name，以及对应的参数：这里画了一个全局图，将

2020-09-19 22:15:34 11386 5

原创 libtorch学习笔记（16）- Faste-RCNN的RPN如何训练以及训练的参数集

学习小结通过前面的学习，很多基本概念基本上已经理解；也通过标准的C/C++函数和Windows自带的D2D技术实现了MNIST, CIFAR10, CIFAR100, Image Folder数据集加载，和图像到张量的转换（当然也支持常见的转换，比如Center Crop, Random Crop, Flip Horizontal, Padding Scale…等等转换）；同时自动写的网络加载器，也能同时定义和加载VGG和RESNET等各类网络，并且在MNIST，CIFAR和猫狗训练集上训练之后的准确率也

2020-09-19 09:56:57 1315 1

原创 libtorch学习笔记（15）- 方向导数和梯度的推导

几个基本数学概念线性近似（linear approximation）：又称线性逼近，在数学中，线性近似是指使用线性函数对一般函数进行近似处理的方法。线性近似就是用线性函数对普通函数进行近似。这个线性函数称为仿射函数。...

2020-09-04 17:54:39 1971

原创 libtorch学习笔记（14）- 梯度的数学解释

梯度可以说是神经网络优化器最基本的一个概念，一直听到这次，但是对于其数学含义，以前还不是特别明白，最近看到一篇不错的文章介绍梯度的文章An introduction to the directional derivative and the gradient，这里翻译一下，并附上自己的理解方向导数（The directional derivative）假设用一个函数f(x,y)f(x, y)f(x,y)表示在一条山脉每个位置x=(x,y)\bold x = (x,y)x=(x,y)的高度。如果你站在一个

2020-09-04 10:06:17 608 1

原创 libtorch学习笔记（13）- 学习率参数调整

关于学习率学习率是机器学习中一个重要参数，对loss的收敛速度和准确性有重要的影响，在深度学习中它一般需要动态调整，在TensorFlow中有很多种学习调整的算法，在libtorch中还没有发现，好在算法不是很复杂，这里就做一些学习笔记，并用C/C++进行实现，同时也应用到ResNet的具体实现中。学习率参数在说明这些参数之前，先讲一下step的概念，这里step就是optimizer调用一次step，或者训练完一次batch，它就增加1，相当于调整一次网络参数（权重和偏置量）。参数说明

2020-08-31 21:52:40 1423

原创 libtorch学习笔记（12）- 权重和偏置量的初始化

权重和偏置量在libtorch中各个神经网络模块中都有实现，比如conv2d1Conv2dImpl::Conv2dImpl( Conv2dOptions options_) : ConvNdImpl( detail::ConvNdOptions<2>( /*in_channels=*/options_.in_channels(), /*out_channels=*/options_.out_channels(),

2020-08-26 17:48:19 2331

原创 libtorch学习笔记（11）- 保存和加载训练结果

保存和加载训练结果libtorch/pytorch提供了很好的serialize操作，可以很容把训练结果保存起来，最初我认为训练结果包括网络拓补结构，权重和偏置量等，后来发现应该只包含权重和偏置量，这样一来就需要在这个文档中存储一些扩展值，用于下一次重构网络。保存网络权重和偏置量torch::nn:Module提供了一个方法save方法，我们构建的网络又是集成这个类，所以可以调用此方法存储网络权重和偏置量。torch::serialize::OutputArchive archive;save(a

2020-08-18 16:34:22 3001 2

原创 libtorch学习笔记（10）- 一些具体问题的解决

神经网络中碰到的问题目前主要用CPU用来进行神经网络训练，验证和测试，在以前的用LeNet来基于MNIST图像集进行训练、验证和测试，速度还行，准确率也很高，但是通过VGG的学习，发现机器有点吃不消了，一轮训练都是几个小时，所以出了一个小问题，可能几个小时就白测试了，训练出准确的网络对我来说太重要了。这是这段时间碰到的一些问题：Loss rate马上变成0原因：训练的数据无差异，无法训练刚开始一上来就碰到这个问题，后来经过排查，发现自己写的将图片转化为张量的实现有问题，导致所有的图片张量都被同一

2020-08-16 23:05:23 1481 2

原创 libtorch学习笔记（9）- 自己实现神经网络加载器

神经网络记载器（Neutral Network Loader)背景通过前面的学习熟悉了两种经典的前置神经网络，LeNet和VGG，在具体实现过程中，有不少重复代码，随着更多神经网络的引入，以及各种神经网络变种，发现代码非常难以维护，而且可读性不是很高，比如VGG网络：NetBatchNormNon-BatchNormA11A-LRN11B11C11D11E11总共有12中组合，如果按照之前的写法：VGGNet::VGG

2020-08-16 10:23:05 776

原创 libtorch学习笔记（8）- 自己实现图片到张量

自己实现的意义本系列笔记主要用C/C++来实现神经网络模型，所以用原生的C/C++自己动手实现图片到张量的转换，更助于了解张量的含义和用途，以及其如何组织。为了便于理解输出结果，制作了一张Red, Green和Blue的图片（10x10):Pytorch来实现假设图片放在I:\import torchimport torchvision.transforms as transformsfrom PIL import Imageimport matplotlib.pyplot as plt

2020-08-11 18:17:00 2163 1

原创 libtorch学习笔记（7）- VGG网络训练和测试

VGG网络训练和测试简单介绍VGG是卷积网络里面比较常见的网络模型，相比LeNet要复杂一些，但是还是前置反馈网络，详细学习可以参考论文VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION，VGG网络能够提取更多的图像特征，最后输出的特诊向量信息量更丰富，所以可以进行更大规模的分类，前面介绍的LeNet5可以产生10个分类，分别对应0~9， VGG可以产生上万个分类，识别更多的类型。VGG也是Faster RCNN的基础，F

2020-08-10 20:44:09 2861 1

大飞的博客

原创 D3D处理2D图像: NV12格式及其转换（1）

原创 D3D处理2D图像：2D Quad坐标系介绍（2）

原创 D3D处理2D图像：2D Quad坐标系介绍（1）

原创 AVX2 初探

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（ROI）

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（RPN）

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（总体结构）

原创 torchvision Faster-RCNN ResNet-50 FPN代码解析（图片转换和坐标）

原创 libtorch学习笔记（17）- ResNet50 FPN以及如何应用于Faster-RCNN

原创 libtorch学习笔记（16）- Faste-RCNN的RPN如何训练以及训练的参数集

原创 libtorch学习笔记（15）- 方向导数和梯度的推导

原创 libtorch学习笔记（14）- 梯度的数学解释

原创 libtorch学习笔记（13）- 学习率参数调整

原创 libtorch学习笔记（12）- 权重和偏置量的初始化

原创 libtorch学习笔记（11）- 保存和加载训练结果

原创 libtorch学习笔记（10）- 一些具体问题的解决

原创 libtorch学习笔记（9）- 自己实现神经网络加载器

原创 libtorch学习笔记（8）- 自己实现图片到张量

原创 libtorch学习笔记（7）- VGG网络训练和测试

原创 libtorch学习笔记（6）- 识别各类简单图片中的数字

原创 libtorch学习笔记（5）- MNIST实战

原创 libtorch学习笔记（4）- 构建一个简单的神经网路

原创 libtorch学习笔记（3）- 一些基本概念

原创 libtorch学习笔记（2）- 自动求导

原创 libtorch学习笔记（1）- 开发环境搭建

原创本博主第一次发博文

原创一个继承类实例内存释放的问题

原创 Windows 10下同步文件夹备份的一种方案

原创 __uuidof在gcc中的实现

原创写一个DPI自适应的Win32程序

原创一种通用的C++类或者结构成员变量的初始化方法

HDCP Specification Rev1_4

[MS-DOC].pdf

VGGNet.zip

空空如也