- 博客(18)
- 收藏
- 关注
原创 TE下的FP8相关知识
目录TVM:TE:TE的FP8FP8加法FP8 GEMM 加法TE的LinearGEMM:张量计算:FP8: 偏置值:最小正规数:最大正规数:二进制有效位数(b)二进制转十进制公式十进制有效位数(d)FP8和十进制如何转换FP8 E4M3 格式定义实例:十进制转FP8实例:FP8转十进制量化:实数合集量化量化公式:缩放因子浮点数到浮点数缩放因子:浮点数量化整数缩放因子:零点:量化公式:整数量化浮点数矩阵量化per tensor:per channel:groupwise:权重量化:定义:目的:公式:激
2025-08-21 17:23:46
976
原创 CUDA算子开发技术基础2
矩阵和进行矩阵相乘,并将结果缩放倍,然后与缩放倍的矩阵相加,并将最终结果存入中。其中A为M∗K维矩阵, B为K∗N维矩阵, C为M∗N维矩阵,矩阵乘法的定义要求输出矩阵的行数继承自 A 的行数,列数继承自 B 的列数则A×B结果矩阵的维度为M*N。GPU的每个线程块通常支持最多1024个线程(例如NVIDIA GPU)其中核函数,每个线程都会调用一次,而每个线程都有特有Id。
2025-08-11 14:38:16
1069
原创 CUDA算子开发基础入门学习1
如图所示:一个硬件驱动程序,一个应用程序编程接口(API) 和它的Runtime, 还有二个高级的通用数学库,CUFFT 和CUBLAS。构建了三个层次:线程(Thread)、线程块(Block)和线程网格(Grid),它们协同工作,共同实现高效的并行计算。包括 CUDA 程序的编译器、IDE、调试器等,CUDA 程序所对应的各式库文件以及它们的头文件。CUDA把线程的ID设计成了一个3维的向量,所以可以根据需要使用1维、2维或者3维索引来识别每个线程。对于2维线程块(假设线程块的尺寸是。
2025-08-06 13:55:30
1285
原创 网络带宽相关测试
一台服务器A,一台服务器B,服务器A作为服务端,服务器B作为客户端压测,此时需要先知道两台服务器之间的最大网络带宽,且需要知道压测时之间的网络吞吐量。
2025-05-06 15:02:59
446
原创 性能测试限制资源
文件夹的名字即为控制组的名字先修改cpuset.mems,不然执行到将某个进程PID添加到该 cgroup,会报错 设备上没有空间限制具体的CPU核数将某个进程PID添加到该 cgroup如何判断该进程确实在核心范围内运行删除这个文件夹则关闭问题:我在检测时发现通过numactl --harware查看到node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15,然后把这个程序的进程加入改组,Cpus_allowed_list:
2025-05-05 17:57:25
312
原创 RocketMQ和openmessaging-benchmark
两台服务器,一台作为服务端,一台作为客户端压测。由于服务端要安装rocketmq,而客户端安装openmessaging-benchmark压测工具进行压测,所以查找资料,最开始根据RocketMQ和openmessaging-benchmark的github上的readme,支持jdk8及以上,然后服务端和客户端都用了jdk8,rocketmq在服务端能够正常启动,但是到了客户端,运行openmessaging-benchmark报错,显示我的jdk版本太低,至少要jdk11,后面改用jdk11才可以。
2025-04-27 09:22:53
1214
原创 IDEA创建Maven项目关于Jedis的Demo示例
查资料发现原来是settings.xml相关的问题,经查验发现是原来创建项目时使用settings.xml没有勾选上Override。勾选上就是把maven配置文件里的仓库中的、你本项目用到的jar包全部拷贝到你本地仓库中,如果不勾选,就是把maven配置文件里的setting配置文件内的仓库地址作为你的本地仓库。在安装redis目录下的redis-server.exe目录下打开cmd,输入redis-server.exe --requirepass 000000。1,安装redis,启动redis服务。
2025-04-14 15:29:33
198
原创 WebSocket+WebRTC的点对点视频音频通信
最近在学习视频音频流,于是从最简单的WebRTC开始,从github上获取了一个很少代码的demo,只实现最基本的视频音频通话。打开index.html在网页中,分别点击两个链接,然后点击发送方按钮,实现视频通信。工具:VSCode,需要插件open in browser ,node.js。2,选择虚拟机的可移动设备->Quanta HP HD Camera->连接。1,选择虚拟机设置中的USB控制器,USB兼容性选USB 3.1。node index.js启动端口。虚拟机:Ubuntu20.04。
2025-03-25 13:57:10
480
原创 boost库如何在CLion下的CMakeList.txt中引用
如上所示是boost 1.79.0的写法,对应的Visual Studio 2017。最开始查资料的看到有的写法。
2025-03-06 17:03:54
287
原创 未加载的ntdll.pdb错误
和同事一起开发的同一份程序,原来在笔记本上开发,我们两个布的环境都是一样的,而且都没有问题,然后换到了另外的台式机,我们的台式电脑都是一样的配置,布的环境也是一样的,但是我的就是不行,编译通过,然后Debug模式下的到最后就报这个错误,但是换成release模式下可以运行通过。后来公司更新了系统,就可以跑了,这验证了我的想法,就是系统本身的问题。
2023-02-10 17:02:37
3976
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2