CUDA编程
小c轩令
这个作者很懒,什么都没留下…
展开
-
Next-Gen cuda debuger 不停在核函数断点的问题
最近换了一块2080ti,图灵架构,查表之后发现图灵架构的cuda debuger只支持Next-Gen,我显卡驱动型号是430.86(他要求),cuda版本9.2,现在是插着两块卡,都是WDDM模式。问题是:在调试的时候就是不能停在核函数的断点中。最开始猜想把2080ti这块卡改成TCC模式会不会变好,但是没改成。先试了cmd:nvidia-smi -g 0 -dm 1说我权限不够。用...原创 2019-10-29 11:27:24 · 980 阅读 · 1 评论 -
nsight无法在断点处中断//start CUDA debugging出错
工作环境:显卡:MX250(帕斯卡架构)cuda版本:9.2显卡驱动:417.59vs版本:vs2015问题描述:最近出差想用笔记本跑一下cuda代码(为了这个目的特地买的装着mx250的超极本),然后在程序跑通的情况下发生了调试不了的问题。自己初始化的和函数跑start CUDA debugging的话根本不会跑kernel中的代码,自己跳出。解决思路:之前的解决办法有两个:1...原创 2019-06-21 17:36:13 · 929 阅读 · 1 评论 -
win10以管理员身份修改Nvidia Nsight Options,修改TDR.
今天调试的CUDA程序除了点问题,第一步先要增大TDR的值。在该值的过程中,我遇到了这个问题:应该是需要更高的权限来修改这个参数。尝试1:原创 2019-06-20 15:29:07 · 4411 阅读 · 0 评论 -
我的研发面经_显卡的硬件结构
1.GPU硬件相关:使用卡的型号:总结一下英伟达显卡的型号,N卡自发展至今经历了这几个架构:第一代G80:tesla架构第二代:费米架构第三代:开普勒架构第四代:麦克斯韦架构第五代:帕斯卡架构其中我们所用到的设是1050ti、1080ti、和TITAN X。其中1050ti的结构是6核(sm),每个sm中有128个计算单元(sp),共768个sp。其中1...原创 2019-04-24 10:57:23 · 1182 阅读 · 0 评论 -
显卡驱动版本号与cuda版本的匹配关系
做一个笔记,防止经常找不到。转载 2019-06-18 22:28:35 · 8714 阅读 · 1 评论 -
GPU VS FPGA对比
之前一直不能很好区别GPU和FPGA的特点,今天小结一下。GPU优势1.从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops);2.GPU相对于FPGA还有一个优势就是内存接口, GPU的内存接口(传统的GDDR5,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口(大约带宽高4-5倍);3.功耗方面,虽然GPU的功耗远大于FPGA的功耗,但...转载 2019-03-06 12:06:49 · 10533 阅读 · 0 评论 -
cuda归约内存问题_图解线程结构分析
问题描述:求这样一个step*16矩阵中每列的最小值,并存到第一行返回输出。 0 1 2 step=3360*64 group0 data0->data0.min[0] min[1] min[2] ... ... ... ... ....原创 2018-12-11 17:25:34 · 781 阅读 · 0 评论 -
hadoop与cuda的几点思考
分布式计算的hadoop与cuda的几点思考最近学习分布式计算,突然想到一个问题,hadoop 和cdua有什么关系。为什么有的问题要并行计算,交给GPU处理,而现在GPU编程的主体是cuda并行计算,有的交给分布式hadoop处理?学习后,受到点启发, 觉得应该是这样的:首先有两种情况:数据密集型、计算密集型1.数据密集型:数量大,但是对每一条数据的处理并不一定麻烦,比如,对1T的文件统...原创 2018-12-15 22:35:00 · 861 阅读 · 0 评论 -
bwa-mem中的ksw算法到底是怎么回事儿?
ksw算法简介研究了这么久bwa-mem算法,也不知一次啃了ksw这块硬骨头,之前没有好好总结,今天来重点研究一下它。主要研究的对象是ksw_extend2函数,它是一个单线程、非完全匹配的sequence alignment算法,该算法基于动态规划的逻辑,进行数据匹配,由于数据间存在大量相关性,所以不方便并行实现,串行实现有十分耗时,我们的工作就是,把这一块从原工程中拎出来,并改写成GPU加...原创 2018-12-20 22:21:33 · 1902 阅读 · 3 评论 -
BWA-MEM算法结构分析
一、BWA-MEM函数框架1 读入 bwt、options、reads;2 利用mem_chain生成chain;3 利用mem_chain_flt过滤掉部分chain;4 利用mem_chain2aln生成比对结果元数据。1.第一步:数据输入加载已经生成的bwt表。接口的参数文件名为:xx.fasta;实际中包含具有以下几个后缀名的文件.amb,.ann,.bw...原创 2018-07-21 11:33:28 · 15329 阅读 · 0 评论 -
CUDAArray的数据存储顺序
cuda数据排序方式原创 2017-08-10 15:28:33 · 1134 阅读 · 0 评论