自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 【C++造神计划】数学运算

​。

2024-04-16 10:30:20 643

原创 【C++造神计划】运算符

在 ANSI-C++ 标准出现之前,许多编译器中,就像 C 语言中,关系运算并不返回值为 true 或 false 的 bool 值,而是返回一个整型数值为结果,它的数值可以为 0,代表 false,或一个非0数值(通常为1),代表 true。比较运算的结果是一个 bool 值,根据运算结果的不同,它的值只能是 true 或 false。将变量 b(rvalue)的值赋给变量 a (lvalue),不论 a 当时存储的是什么值。前缀(++a),变量 a 的值先增加,再计算整个表达式的值。

2024-04-11 12:00:59 462 1

原创 【C++造神计划】printf 与 cout

在 C 语言中,没有专门的输入输出语句,所有的输入输出操作都是通过对标准输入输出库函数(包含在stdio.h头文件中)的调用实现。最常用的输入输出函数有printf()scanf()

2024-04-09 11:13:02 418

原创 【GPU】冲击高性能

从gpukernsum可以看出,gemm的实现是通过sm50架构的算子实现的, 这是NVIDIA第一代统一虚拟内存的架构;而本机4090的已经是最新架构Ada Lovelace,所以要解决这个问题,就需要手写Kernel算子,选择合适的并行方式去计算;The NVIDIA GeForce RTX 4090 offers a peak single-precision (FP32) performance of 82.6 TFLOPS . (理论)RTX 4090 1.01 TB/s (理论)

2024-04-08 21:54:02 674

原创 【Zero-Copy】一些关于 零拷贝 的问题

统一内存提供了一个简化的编程模型,通过自动数据迁移来实现CPU和GPU之间的内存透明共享,减轻了开发者在内存管理上的负担,但可能会引入额外的性能开销。共享内存是GPU内部线程块中的快速内存,用于加速线程块内的数据交换和减少全局内存访问,需要开发者精心设计数据访问模式。零拷贝内存专注于减少CPU和GPU之间的数据拷贝操作,适用于小批量数据处理,需要开发者手动管理内存。

2024-04-08 21:03:03 726

原创 【C++造神计划】定义常量

如果你在宏定义行末尾加了分号(;),当预处理器在程序中做常量替换的时候,分号也会被加到被替换的行中,这样可能导致错误。一旦做了这些声明,你可以在后而的程序中使用这些常量,就像使用其他任何常量一样,例如∶。指令的时候,做的只是把任何出现这些常量名的地方替换成它们被定义为的代码。指令不是代码语句,它是预处理器指令,因此指令行末尾不需要加分号(可以将那些经常使用的常量定义为你自己取的名字而不需要借助于变量。使用 const 前缀可以定义自定类型的常量。

2024-04-08 16:25:10 218

原创 【ONNX】删改

在深度学习模型的部署过程中,对ONNX(Open Neural Network Exchange)模型进行删改是一个常见且重要的步骤。这个过程不仅关系到模型的推理性能和效率,还直接影响到最终部署的成功与否。以下是对ONNX模型进行删改的重要性以及进行这一过程时的重要步骤。

2024-04-07 14:21:54 371

原创 【C++造神计划】指针 - 2

在声明指针的时候要指明它所指向的数据类型。指向整型(int)或浮点型(float)数据的指针与指向一个字符型(char)数据的指针并不相同type 是指针所指向的数据的类型。

2024-04-07 10:21:15 136

原创 【NsightSystem】Nsight System命令大全

常见的值包括 cudaProfilerApi(基于 CUDA Profiler API 标记的区域)、nvtx(基于 NVTX 范围的区域)等。-o 或 --output:指定输出文件的名称。–export:在分析结束后自动导出报告,支持的格式包括 sqlite、qdrep、csv 等。–stop-on-exit:当应用退出时自动停止分析。–gpu-metrics:指定要收集的GPU性能指标。–delay:分析开始前的延迟时间(以秒为单位)。–duration:分析的持续时间(以秒为单位)。

2024-04-06 21:31:03 412

原创 【C++造神计划】变量

要使用一个变量必须先定义(有的地方会说声明)该变量的数据类型定义一个新变量的语法是写出数据类型标识符(例如 int、short、float 等),后面跟一个有效的变量标识名称基本用法:[数据类型] + [变量名]声明多个相同类型的变量,可以写在同一行整型数据类型(char、short、long和 int)可以是有符号的(signed)或无符号的(unsigned)signed: 有符号类型,可以表示正数和负数unsigned: 无符号类型, 只能表示正数和0。

2024-04-06 09:44:43 275 1

原创 【C++造神计划】常量

【代码】【C++造神计划】常量。

2024-04-05 11:33:40 194 1

原创 【CLIP】打破文本和图像的壁垒

CLIP(Contrastive Language-Image Pre-training)是OpenAI提出的一种新颖的预训练模型,旨在通过对大规模图像-文本对的对比学习,使模型能够理解丰富的视觉概念和自然语言描述。这种方法的核心优势在于它不需要手动标注的数据,而是直接利用现有的文本和图像进行学习。CLIP通过其创新的对比学习框架,实现了对图像和文本的深层次理解,并在多种视觉任务上展现了出色的迁移能力。它的出现打破了固定类别训练的传统范式,使得处理数据、训练模型和进行推理更为方便。

2024-04-04 10:54:39 859 1

原创 【C++造神计划】指针 - 1

指针是 "指向(point to)" 另外一种类型的复合类型(基于其它类型定义的类型)

2024-04-04 09:58:29 610 2

原创 【ONNX】构建

抛开pytorch,抛开一切,从现在开始,我们只关注ONNX完全用 ONNX 的 Python API 构造简单的两个输入一个输出的 ONNX 模型。

2024-04-03 15:32:08 454 2

原创 【C++造神计划】 基本类型

unsigned 和 signed 修饰符分别表示无正负值符号和有正负值符号的数据类型,计算机中原始数据类型使用的是二进制数,如果要表示正负值符号则需要用 1 位存储空间。以字符型为例,无符号字符型取值值域是 2^8,那么其取值范围为 0~255,有符号字符型将1位用于存储符号,取值值域是2^8-1,那么范围为-128~127。修饰符用来改变基本类型的意义,以便更准确地适应各种情况的需求。表示正数时,最大能表示的值总是比值域少 1,这是因为将 0 作为正数看待,0占用了一个取值空间。

2024-04-03 09:44:17 406 1

转载 【转载】CUDA TensorRT 问答

答:第一个用在调用cuda_runtime提供的API函数,所以,都会返回一个cudaError_t类型的变量,需要将变量传入到第一个函数,效验调用API是否正常执行。第二个,使用在自己写的核函数时,自己写的,一般没有返回cudaError_t类型变量,不用传参,如果想知道错误,调用getlastcudaError(),获取系统给你报的错,所以,第二个在函数里面点用了getlastcudaError不用传参。

2024-04-02 21:48:55 44 1

原创 【芝士推理】YOLO_Line_Segment Analysis

简单推理

2024-04-02 19:47:44 692 1

原创 【Transformer】论文介绍

Transformer模型包含两大部分:编码器(Encoder)和解码器(Decoder)。编码器:由多层相同的层组成,每层有两个主要子层,即自注意力层和前馈神经网络。编码器负责处理输入序列,捕获序列内各元素间的关系及其上下文信息。解码器:结构与编码器类似,但在自注意力和前馈网络之间增加了一个交叉注意力层。解码器利用编码器的输出以及之前已生成的序列信息来预测下一个序列元素。

2024-04-02 19:36:31 1594 1

原创 【PaperKey】ALEXNet

在此之前人们更关注无监督学习,2012年这篇论文之后,大量研究监督学习;

2024-04-02 19:18:11 308 1

原创 【vscode】Compiler configuration

3. 因为.cpp对应的是C++程序,cuda-cpp对应的是CUDA c++,所以还要略作修改。在compile_commands.json 中的红框位置添加bear生成的compile文件路径。因为makefile.cofig中APP := trt-cuda(可以自行修改)a. 在.vscode中创建settings.json。b. 将.cu 文件 对应 cuda-cpp。至此,实现了.cpp 文件到 .cu文件的交互。选择others,自己创建新的tasks文件。创建tasks.json文件。

2024-04-02 16:45:21 327 1

原创 【C++造神计划】 进制

的基本单位,计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即 1 个字节等于 8 个比特(1Byte=8bit)。八位二进制数最小为 00000000(十六进制:00),最大为 11111111(十六进制:FF);我们习惯的进制是十进制,计算机里面常用的是二进制、八进制、十六进制。$$$$ 位二进制可以表示的数字(数量): $$2^{n$$ 个。原码:最高位是符号位,对其它的位进行本身绝对值即可。最高位是符号位:1(负数), 0(正数)负数:符号位一定是1,反码+1。

2024-04-02 11:24:54 451 1

原创 【trtexec】trtexec命令大全

讲解了trtexec的命令,文章下方也有命令实战,带你彻底学会每一个参数!

2024-04-02 10:16:21 704 1

原创 【ServerTrick】服务器免密登录

打开windows命令行输入。

2024-04-01 22:08:40 198

原创 BankConflict

当游戏开始后,32个同学按照同一个节奏跳绳,并不会因为位置发生冲突,那如果最不理想的情况发生,即32个thread访问shared memory中的同一个bank,即bank conflict最大化,那就要32个时钟周期才能跑完,也就是说要抡32次绳子,同学们才能依次跳过,这个延时我们是无法接受的;想象一下学校组织跳大绳比赛,8个班级(block),每个班级32个同学(32个thread)并排准备跳绳,每个同学对应一个位置(bank),如图。Bank conflict 原理。静态conflict前后对比。

2024-04-01 22:04:18 139

原创 【trtexec】trtexec命令实战

差距还是挺明显的,batch涨了100倍,我们的平均耗时也只是涨了3倍而已;这时使用minShapes跑的,结果和静态区别不大,那我们。,导入engine的方法再测一下。

2024-04-01 21:59:10 447

原创 neo4j的基本操作(NLP用的一些基本操作)

关系讲解:中国的首都是北京,北京管辖XX大学,XX大学属于中国要注意的点:1. CREATE(主体-关系)-> (客体) 意思就是主体和关系用-连接,只有带了关系的实体才称之为主体,才能用->指向客体,否则会报错;2.主体除了第一个name属性名是规定之外,其他属性名都可以自定义,往后面一直加用,隔开就可以了;3.不能重复CREATE一个结点,例如本例中,不能重复的CREATE(country: ) country已经创建过了,后面跟什么都会报错;如果要给创建好的结点添加一个属性,可以用SET;

2024-04-01 21:14:14 658

原创 neo4j安装

第一种:下载过neo4j community,第一次下很容易下错,然后忘记删,要把这些相关文件都删除,否则会有冲突,不让删的话就在任务管理器中把相关进程关掉,我关了很多,有种错差一千的感觉;第二种:第一次创建本地进去之后不知道点哪了,要配置一些信息,不知道怎么配,乱点一通,再进的时候时候就连不上了,我就删了重新装了一下,目前能正常使用;兴致勃勃的下载了最新的桌面版本,结果用不了,在官网又没有看到其他版本入口地址,于是...总之,远程的报错比较少,本地会多一些,如果本地报错,也不影响远程使用;

2024-04-01 21:12:41 203

原创 ONNX,从了解到精通

这篇教程用到的技术很多,需要有一定的基础,博主建议先学会添加算子的方法,走通整个流程之后,再回来填那些坑,比如如何添加Pytorch的具体实现插件,有没有更便捷的添加ONNX插件的方法等等,这些后面博主都会更新;

2024-04-01 11:58:52 1572

原创 一文读懂Datapipeline

下面我们通过另外一种方式,即继承 torch.utils.data.Dataset 创建自定义数据集的方式来对 cifar2构建 数据管道。# 自定义数据集,继承Dataset# 传入文件目录与数据增强方式# 这里是图像的目录,目录中是图片及其编号# 获取长度# 逐个操作,根据文件的编号获取相对应的数据与标签信息# 定义图片增强transforms.RandomHorizontalFlip(), #随机水平翻转。

2024-04-01 11:33:59 1995

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除