- 博客(17)
- 收藏
- 关注
原创 cuda编程:怎么用2维网格2维块计算矩阵加法
一个线程在网格中的块的索引是ix = threadIdx.x + blockIdx.x * blockDim.x和iy = threadIdx.y + blockIdx.y * blockDim.y。//查看当前可用GPU设备数 并将可用device设置为0。这样就可以输出结果。
2024-07-25 22:07:31
838
原创 cuda编程:怎么调用API看自己的架构并计算核心数量
,这里的device_id就是你的显卡id,默认是0,如果是多卡就是0,1,2这样。看上面的运行图可以看到有一个计算能力结果是8.9,这个是通过device_prop.major和device_prop.minor得到参数,所以我现在这个4060显卡的主次版本号分别是8和9。可以看到这个API的修饰符有__host__和__cudaError_t,意思是这个API在主机中调用,且错误返回的类型是__cudaError_t。可以看到我的4060显卡是安培架构,有3072个cuda核心。这样就可以输出结果。
2024-07-25 14:57:48
434
原创 训练自己的SETR和VIT模型
因为最近在发论文需要对之前的模型复现并记录完整的数据,结果没有找到一个完整的代码可以让SETR在torch框架中训练,有的是缺少dataloader,有的是缺少train.py,有的是只有一个网络结构代码。所以我将SETR和VIT的结构整合在了一起,并且加入了dataloader,训练,预测,评估每个类别的iou、recall等等参数的功能。代码结构如下(目前,持续更新中。。。。。
2024-07-18 11:25:17
758
原创 Deeplabv3+训练aeroscapes
修改train.py中的num_classes为12,其他都没动即可训练。,可以直接gitclone也可以下载zip然后解压。将aeroscape数据集改名为VOC2007。predict.py十分详细的中文注释,一键运行。然后变一下结构放到VOCdevkit中,如图。
2024-07-16 14:19:12
291
1
原创 FCN训练Aeroscapes数据集
首先我要用aeroscpaes数据集训练fcn8s,所以开始对examples/voc/train_fcn8s.py中的代码进行修改。train_fcn8s.py中调用train_fcn32s.py的git_hash函数全部删除了,因为这个函数就是输出当前code的版本,这里又会涉及到代理问题,所以删除了不影响。解压model_best.pth.tar,模型现在加载这个model_best.pth测试即可。代码目录结构如下(接下来用的数据集是aeroscapes,所以要改一些数据集加载的代码)
2024-07-16 14:08:17
378
原创 cuda C++ 编程指南 第六章 编程接口(上)
英伟达 《CUDA C++ Programming Guide》 官方文档学习记录笔记 版本【Release 12.4】出版时间【 Apr 22, 2024】 持续更新中。。。。。。
2024-07-12 11:07:47
807
原创 cuda C++ 编程指南 第五章 编程模型(下)
基于 NVIDIA Hopper GPU 架构的设备的主要修订数为 9,基于 NVIDIA Ampere GPU 架构的设备为 8,基于 Volta 架构的设备为 7,基于 Pascal 架构的设备为 6,基于 Maxwell 架构的设备为 5,基于开普勒架构的设备为 3。图灵是计算能力为7.5的设备的架构,是基于Volta架构的增量更新。每个线程都有私有的本地内存,每个线程块对块的所有线程都有可见的共享内存,每个线程块集群中的线程块可以对彼此的共享内存执行读取、写入和同步操作。
2024-06-09 20:12:34
719
原创 cuda C++ 编程指南 第五章 编程模型(上)
1.定义:CUDA C++通过定义C++函数拓展C++,称为内核(kernels)。调用该内核时,由N个不同的cuda线程并行执行N次。2.__global__来定义内核,来执行配置。3.执行时每个线程(thread)有一个单独ID,该ID可以由内置变量再内核内访问。
2024-06-05 19:06:12
409
原创 Autofocusformer的空间聚类用在局部注意力有参考价值吗?
你想知道对应CVPR 2023论文(autofocusformer)的代码是什么逻辑吗
2024-01-23 16:46:55
1106
原创 CVPR 2023 autofocusformer核心部分翻译
与此形成对比的是,对于一个无序的点集,确定3D点云中的邻域的传统方法依赖于诸如k近邻(kNN)等算法,它计算点之间的成对距离。有趣的是,许多加速kNN的算法的第一步都是在给定的点上进行k-means聚类,以减少邻域搜索的空间。因为我们可以在O(1)时间内通过简单量化它们的坐标来找到每个tokens对应的空间填充锚点,所以聚类的总体时间复杂度不超过对局部补丁中的所有tokens位置进行一次排序,与网络的时间复杂度相比可以忽略不计,因为没有涉及到特征通道。这是有利的,因为邻域是重叠的,保证了簇之间的信息交换。
2024-01-23 14:27:58
994
翻译 Prognostics and Health Management (PHM): Where are we and where do we go in theory and practice
We are performing the digital transition of industry, living the 4th industrial revolution, building a new World in which the digital, physical and human dimensions are interrelated in complex socio-cyber-physical systems. For the sustainability of these t
2023-10-16 17:03:18
268
原创 谭浩强C程序设计试题汇编第三版 第九章解析
之前写的全部上传完了 笔者正在读研有些忙 学习c大家还是要自己动手写 一次次debug中领悟c的精髓。
2023-10-10 16:15:31
250
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人