2016年05月_ZIV555

原创关于 Nsight Monitor 启动时出现port8000 怎么解决

因为需要打开Nsight Monitor调整TDR，可是每次打开总是会粗线，下面情况。首先我们得找出占用这个端口的值。1、首先我们打开CMD，用管理员身份打开，然后输入netstat -ano，列出所有端口的情况。2、查看被占用端口对应的PID，输入命令：netstat -aon|findstr "8000"，回车，记下最后一位数字，即PID,如果是2839。3、（可用可不用）

2016-05-31 14:33:06 1548

转载 GPU（显卡）的WDDM TDR时间修改方法

为了暂时利用GPU（显卡）进行计算，需要对桌面显示作出一个延时，在矩阵乘法上遇到当计算时间过长时会遇到下面这种情况，这是计算时间过长的表现，此时就需修改TDR的时间，如是有了这篇转载的文章。1，联通两台电脑：准备两台电脑，分别称为主机和调试机，在主机端运行vs2010，在调试机上进行调试，其中至少调试机应支持CUDA，使两台机器在同一个局域网，或直接将两台电脑用网线连接起来

2016-05-31 14:12:48 11739

原创矩阵乘法中的高阶计算时间和计算误差问题

主要探讨的有两个问题：1、当矩阵维度为16*16，2048*2048时，可以计算出来（用全1矩阵进行测试），并且加速比大于1（GPU快），可是当矩阵维度提升到4096*4096时，此时会出错（计算不准确，显示器驱动程序已停止响应并且已成功恢复），怎么解决？2、先前测试了全1矩阵，现在改成随机数矩阵（包括小数和整数），16*16等矩阵都不能得到正确的结果，怎么办？首先贴出多线程的

2016-05-31 14:03:03 2914

原创重拾cuda的几个小问题

比较基础的几个小问题：1、错误 1error MSB3721: 命令“"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.5\include\bin\nvcc.exe" -gencode=arch=compute_20,code=\"sm_20,compute_20\" --use-local-env --cl-version 20

2016-05-30 15:50:09 2292 1

转载 QT gdb安装

Qt Creator + MinGW 在windows 下的调试Qt的安装配置请参考本博客本分类下的其他相关文章，本文主要整理在调试时候遇到的问题和解决方法供遇到同样问题的同学参考。由于我之前也没有任何Qt的开发基础，做的也是硬件方面设计，所以这方面基础还是比较薄弱，这儿主要记录摸索过程中的一点心得体会。Qt的安装和初步配置请参见：Qt Creator的配置和开发初步测试

2016-05-30 10:04:22 2426

原创内存访问

1、访问内存的低性能主要原因在于全局存储器，这种存储器通常通过动态随机访问存储器（Dynamic Random Access Memory实现，DRAM），在访问时有可能出现长延时（几百个时钟周期）和访问带宽有限的情况。2、如何减少全局存储器流量的策略一种常用的策略是把数据划分成多个子集，称之为块（tile），每个块都必须满足共享存储器的容量限制。eg：矩阵乘法（通过线程间的合作来

2016-05-26 15:40:03 615

转载 CUDA程序优化

CUDA程序优化CUDA程序优化应该考虑的点：精度：只在关键步骤使用双精度，其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡；延迟：需要首先缓冲一部分数据，缓冲的大小应该可以保证每个内核程序处理的一批数据能够让GPU慢负荷工作；计算量：计算量太小的程序使用CUDA很不合算；当需要计算的问题的计算密集度很低的时候，执行计算的时间远远比

2016-05-25 15:23:57 590

原创在大规模并行处理器编程实战中遇到第四章的课后习题blocksize的问题

在大规模并行处理器编程实战中遇到第四章的课后习题：如果并不是所有的blocksize值都能使代码正确执行，那么应该如何修改代码，才能使所有的blocksize值都能执行正确。没有找到答案，我也不知道说的对不对，个人觉得1、blocksize 根据SM可承受的最大线程数来设计，不得使最终的线程数超过了所能承受的最大值。2、尽量使得每个block中线程数量是32的整数倍，最好保持

2016-05-25 15:22:29 1127

转载 NVIDIA Tesla K80：怪物般的双芯计算卡

Tesla K系列都是基于“开普勒”(Kepler)架构的高性能计算产品，其中采用GK110大核心的已有三款，而今天这款Tesla K80，从各个方面都进行了前所未有的增强。首先，她的核心是新的GK210。GK110核心第一次用于高性能计算是Tesla K20，只开启了2496个流处理器，经过一次修订后升级为GK110B，先后推出了2688个流处理器的增强版Tesla K2

2016-05-24 09:15:42 12971

转载堆栈与队列的区别整理

理论：共同特点：栈：是限制在表的一端进行插入和删除运算的线性表。栈又称后进先出简称：LIFO表队列：也是一种运算受限的线性表。它只允许在标的一端进行插入，而在另一端进行删除。队列亦称：先进先出FIFO表不同点：队列是先进先出：就像一条路，有一个入口和一个出口，先进去的就可以先出去。而栈就像一个箱子，后放的在上边，所以后进先出。进程中每个线程都有自己的堆

2016-05-23 09:07:32 12553

原创 cuda中的矩阵乘法

乘法的形式都一样，都是分配一样的线程，两种形式不同的地方在于处理矩阵大小不同，通过分块的方法解决大矩阵的问题，两种形式的代码如下；_global_void MatrixMulKernel(float*Md,float *Nd,float *Pd,int Width){//2维线程IDint tx = threadIdx.x;int ty = threadIdx.y;

2016-05-20 17:10:47 638

原创四则运算——中缀表达式转后缀表达式

后缀（逆波兰）规则：从左向右遍历中缀表达式的每个数字和符号，若是数字就输出，即成为后缀表达式的一部分；若是符号，则判断其与栈顶符号的优先级，是右括号或优先级低于栈顶符号（乘除优先于加减）则栈顶元素依次出栈并输出，并将当前符号进栈，直到最终输出后缀表达式为止。最重要的两步：1、将中缀表达式转化成后缀表达式（栈用来进出运算的符号）；2、将后缀表达式进行运算得出结果（栈用来进出运

2016-05-20 11:27:46 1099

原创迭代和递归的区别

迭代使用的是循环结构，递归使用的是选择结构，递归能使程序的结构更加清晰、更简洁、更容易让人理解，从而减少读懂代码的时间。但是大量的递归调用会建立函数的副本，会耗费大的时间和内存。因此我们应该视不同的情况选择不同的代码实现。递归过程退回的顺序是它前行顺序的逆序，在后面以存储的逆序恢复这些数据，比较符合栈的数据结构。

2016-05-20 10:20:35 535

原创 dimGrid和blockDim变量

cuda中kernel的启动//设置对应的执行配置参数,dim3类型的struct变量dim3 dimBlock(Width,Width);//描述块的配置dim3 dimGrid(1,1);//描述网格的配置信息//启动在设备上进行计算的线程MatrixMulKernel>>(Md,Nd,Pd,Width)dimGrid和blockDim变量都是内置的预定义变

2016-05-19 16:43:18 4612

转载刚出的nvidia的GTX1080

转载于http://search.zol.com.cn/search/article_view.php?did=58193482016年的新一代显卡来得比以往更早一些——没等到6月份的台北电脑展，今天NVIDIA就正式发布Pascal架构的GeForce GTX 1080及GTX 1070显卡。GP104核心的规格与之前爆料的消息相差不大，当然吸引人的亮点还是挺多的——散热器及

2016-05-19 14:40:01 1281

原创并排表格改成依次垂直放或者多个表格改成并排

今天碰到一个表格是并排排列在letter格式的纸张上，可是这种格式一般在我们办公室的常用打印机上是识别不出来的，所以要更改一下子，首先改变每个表格的表格属性，将文字环绕去掉就好了，然后把格式改成A4纸，居中就可以正常打印了，另外，如果想要把不是并排的变成并排的就反着来，设置成文字环绕就好了。

2016-05-17 16:18:10 782

转载内存碎片

内存碎片编辑内存碎片分为：内部碎片和外部碎片内部碎片内部碎片就是已经被分配出去（能明确指出属于哪个进程）却不能被利用的内存空间；内部碎片是处于区域内部或页面内部的存储块。占有这些区域或页面的进程并不使用这个存储块。而在进程占有这块存储块时，系统无法利用它。直到进程释放它，或进程结束时，系统才有可能利用这个存储块。单道连续分配只有内部碎片。

2016-05-16 09:49:34 358

转载 teechart怎么删除（到达一定数目）动态曲线出现过的点

首先这个东西是在交流群中看到的，只是做个备注，希望以后有用。 if (line.Count > 1024) line.Delete(0); 一般是Clineseries这个类

2016-05-10 16:55:37 3946

转载开普勒架构和麦克斯韦架构是什么？有什么区别？

Maxwell可以算Kepler的改进版架构。两个架构最明显的变化是在SMX单元和GPC单元上。Maxwell的SMM（之前叫SMX）单元从之前Kepler的包含192个CUDA Core下降到128个，但发射器从之前的每SMX一个变为了每SMM四个，目的是降低每个SMM单元的运算压力提升效率。增加了两个寄存器，然后L1缓存翻倍，GPC单元的L2缓存增加到了2M。现在已经上市的Maxwel

2016-05-10 09:36:50 12992

ZIV555的博客