自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 cuda归约内存问题_图解线程结构分析

问题描述:求这样一个step*16矩阵中每列的最小值,并存到第一行返回输出。 0 1 2 step=3360*64 group0 data0->data0.min[0] min[1] min[2] ... ... ... ... ....

2018-12-11 17:25:34 752

转载 2021-11-14

https://blog.csdn.net/u010412858/article/details/76153000

2021-11-14 13:42:31 146 1

原创 AIX文件系统基本之逻辑卷概念

AIX的逻辑卷LVM(logical volume manager)管理系统要负责管理1.物理存储(Physical stroage)2.逻辑存储(Logical storage)3.文件系统(File systems)4.目录(Directories)5.文件(Files)传统的分区管理的方式存在一些弊端,包括1.固定分区(Fixed partitions)2.需要比较大的分区空间(Expanding size of the partition)3.文件系统及文件大小限

2020-11-30 00:50:23 413

原创 Next-Gen cuda debuger 不停在核函数断点的问题

最近换了一块2080ti,图灵架构,查表之后发现图灵架构的cuda debuger只支持Next-Gen,我显卡驱动型号是430.86(他要求),cuda版本9.2,现在是插着两块卡,都是WDDM模式。问题是:在调试的时候就是不能停在核函数的断点中。最开始猜想把2080ti这块卡改成TCC模式会不会变好,但是没改成。先试了cmd:nvidia-smi -g 0 -dm 1说我权限不够。用...

2019-10-29 11:27:24 919 1

原创 并行软件设计

并行软件在运行共享内存系统时,会启动一个单独的进程,然后派生(fork)出多个线程,所以当我们谈论共享内存程序时,我们指的是正在执行任务的线程。需要在进程、线程之间平均分配的任务从而满足使得每个进程/线程获得大致相等的工作量称为负载均衡(load balancing)。将串行程序或者算法转换为并行程序的过程称为并行化(parallelization)我们需要协调进程/线程之间的工作,这些进...

2019-09-30 14:02:16 391

原创 永遇乐·国庆

十一回家,从西安到北京,一路上店铺招展的红旗,火车上唱歌的陌生人,楼下的献礼演出,好像整个民族都调整到了同一频率,在这祖国七十华诞之际,喜悦震荡了整个中华大地。永遇乐·国庆金秋十月,长安街前,礼炮齐鸣。七洲共聚,八方来客,翘首在京城。遥想当年,东亚病夫,四海无一宾朋。谁料想,七十载过,华夏巨龙升腾。莘莘学子,立志报国,定不虚度此生。两弹一星,长征天眼,圆我嫦娥梦。蛟龙出水,巨浪二...

2019-09-29 21:37:41 304

原创 window/linux程序编译小结

一.window:1.编译:源文件.c->汇编代码.s->机器代码.o文件2.链接:静态链接库:o文件中可能会需要用到外部函数,我们通过链接.lib文件,将lib文件中的外部库函数粘贴到.o文件的指定位置。动态链接库.dll:.dll与静态库类似,但是是在程序运行过程中进行链接。3.连接完了就可以完成运行。二.linux:1.预编译:生成源文件.c->预编译代码....

2019-09-05 21:43:13 186

原创 8.17腾讯笔试开发岗第二题

逆序对问题简介:先对字符串做一个部分翻转,求得翻转结果里逆序串的个数(两个数字之前前面数字比后边大,组成一个逆序串,如3,2,1中,3,1;2,1,分别是两个逆序串)。用例:第一行n:2 //表示目标数据个数为2^n个第二行:2 1 4 3//表示这个长度为4的数据串的各个值第三行:4 //做4次变换第四行:1 2 0 2 //每次的变换空间大小输出:0 //输入2,1,4,3,...

2019-08-17 23:21:55 464

原创 8.17腾讯开发岗笔试第四题

看楼问题实例:输入:6//6栋楼5 3 8 3 2 5//每栋楼高度。输出:3 3 5 4 4 4//表示站在对应位置处,所能看到的所有楼。这道题当时自己没做完,交了卷之后才做的,测试用例是ok了,思路也比较清晰,就是从立足点开始,由近及远,向左向右,不断更新最高的楼高度,如果新楼比前面最高的一个楼高,就能看到,否则看不到。#include<iostream>usin...

2019-08-17 23:05:51 434 2

原创 c++中不能被重载的运算符有:

c++中不能被重载的运算符有:.点,逗号.*::?:6.sizeof7.typeid

2019-08-08 17:04:46 5818

转载 IP地址相关计算_计算机网络

转载一篇学习一下https://blog.csdn.net/chaoshenzhaoxichao/article/details/82960999通过IP地址和子网掩码与运算计算相关地址知道ip地址和子网掩码后可以算出:1、 网络地址2、 广播地址3、 地址范围4、 本网有几台主机例1:下面例子IP地址为192·168·100·5 子网掩码是255·255·255·0。算出网络地...

2019-07-10 15:24:22 844

转载 常见GPU卡精度支持一览表

看到的资料在这儿记一下笔记~

2019-06-30 12:34:03 4697 1

原创 vs2015编译x64的zlib源文件

win10系统,安装了visual studio 2015,在代码中用到了zlib库,之前很容易地配好了x86的链接文件,现在想配一个x64的,但是方法有点差异遇到了一些问题。感谢https://www.cnblogs.com/MrOuqs/p/5751485.html这位博主,解决了我的问题,在这儿我总结一下。几乎所有方式,x64的编译都会有点坑,鉴于网上的x86编译方式非常的多,所以不再累...

2019-06-23 17:27:54 1127

原创 nsight无法在断点处中断//start CUDA debugging出错

工作环境:显卡:MX250(帕斯卡架构)cuda版本:9.2显卡驱动:417.59vs版本:vs2015问题描述:最近出差想用笔记本跑一下cuda代码(为了这个目的特地买的装着mx250的超极本),然后在程序跑通的情况下发生了调试不了的问题。自己初始化的和函数跑start CUDA debugging的话根本不会跑kernel中的代码,自己跳出。解决思路:之前的解决办法有两个:1...

2019-06-21 17:36:13 876 1

原创 win10以管理员身份修改Nvidia Nsight Options,修改TDR.

今天调试的CUDA程序除了点问题,第一步先要增大TDR的值。在该值的过程中,我遇到了这个问题:应该是需要更高的权限来修改这个参数。尝试1:

2019-06-20 15:29:07 4276

转载 显卡驱动版本号与cuda版本的匹配关系

做一个笔记,防止经常找不到。

2019-06-18 22:28:35 8689 1

原创 我的研发面经_程序内存结构分析②C++

在C++中,内存分成5个区,他们分别是堆、栈、自由存储区、全局/静态存储区和常量存储区。这里有个问题:为什么没有了bss、data和代码区?反而多了自由存储区、全局/静态存储区、常量存储区。目前可以理解为是C++和C的区别。栈。就是那些由编译器在需要的时候分配,在不需要的时候自动清楚的变量的存储区。里面的变量通常是局部变量、函数参数等。 堆,就是那些由new分配...

2019-06-16 00:47:34 159

原创 我的研发面经_ELF文件结构小结

Linux共享库、静态库、动态库详解介绍使用GNU的工具我们如何在Linux下创建自己的程序函数库?一个“程序函数库”简单的说就是一个文件包含了一些编译好的代码和数据,这些编译好的代码和数据可以在事后供其他的程序使用。程序函数库可以使整个程序更加模块化,更容易重新编译,而且更方便升级。程序函数库可分为3种类型:静态函数库(static libraries)、共享函数库(shared li...

2019-06-15 23:11:22 230

原创 我的研发面经_程序内存结构分析①C语言

1

2019-06-15 15:50:23 488

原创 我的研发面经_C++关键字小结

C++的描述性关键字有哪些?1.const:用const修饰的变量是只读属性,一旦初始化后不能更改。例:const int a;和 int const a;//在这两个中const的作用是一样的,a是一个常整型数。const int *a;int * const a;int const * a const;//签一个意味着a是一个指向常整型数的指针(也就是,指向的整型数是不可修改...

2019-06-15 15:46:07 197

原创 我的研发面经_显卡的硬件结构

1.GPU硬件相关:使用卡的型号:总结一下英伟达显卡的型号,N卡自发展至今经历了这几个架构:第一代G80:tesla架构第二代:费米架构第三代:开普勒架构第四代:麦克斯韦架构第五代:帕斯卡架构其中我们所用到的设是1050ti、1080ti、和TITAN X。其中1050ti的结构是6核(sm),每个sm中有128个计算单元(sp),共768个sp。其中1...

2019-04-24 10:57:23 1111

转载 GPU VS FPGA对比

之前一直不能很好区别GPU和FPGA的特点,今天小结一下。GPU优势1.从峰值性能来说,GPU(10Tflops)远远高于FPGA(&lt;1TFlops);2.GPU相对于FPGA还有一个优势就是内存接口, GPU的内存接口(传统的GDDR5,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口(大约带宽高4-5倍);3.功耗方面,虽然GPU的功耗远大于FPGA的功耗,但...

2019-03-06 12:06:49 10221

原创 第二课:QT的信号和槽机制

参考:https://blog.csdn.net/lsfreeing/article/details/78575246#简介简介信号和槽信号槽一个小例子一个实际例子带有默认参数的信号和槽信号和槽的进一步使用和第三方库信号槽使用Qt信号和槽用于对象间的通讯。信号/槽机制是Qt的一个核心特征,也许是Qt与其它框架提供的特性中最不相同的部分。简介在GUI编程中,当我们改变一个部件...

2019-03-05 15:47:44 315

原创 第一课:Qt各版本官方下载地址+什么是QT

1.在哪下载?所有Qt版本下载地址: http://download.qt.io/archive/qt/所有Qt Creator下载地址: http://download.qt.io/archive/qtcreator/所有Qt VS开发插件下载地址: http://download.qt.io/archive/vsaddin/Qt相关下载大全 http://downlo...

2019-03-05 15:00:59 741

原创 希尔排序算法原理小结

算法步骤1.选择一个增量序列 t1,t2,……,tk,其中 ti &gt; tj, tk = 1;2.按增量序列个数 k,对序列进行 k 趟排序;3.每趟排序,根据对应的增量 ti,将待排序列分割成若干长度为 m 的子序列,分别对各子表进行直接插入排序。仅增量因子为 1 时,整个序列作为一个表来处理,表长度即为整个序列的长度。图形演示1.初始状态2.设置步长为5,过5个位置将数据...

2019-02-25 18:15:39 177

原创 linux系统下 将本地程序同步到github上

主要有以下几个步骤:登录github,新建一个项目new repository把当前目录变成git可以管理的仓库确认当前目录是自己的项目工程目录,在终端输入git init此时终端会显示“初始化空的Git仓库于/…git”添加所有需要上传的文件和配置到gitgit add FILE添加确定的文件FILEgit add .添加当前目录下所有文件查看当前提交状态git status...

2019-02-25 17:27:36 245

原创 Mask RCNN在图像分割的应用

近几年的演化过程:FastRCNN-&gt;MaskRCNN-&gt;PANet对比MaskRCNN 和FastRCNN,其中之一就是把ROI pool layer换成了ROIAlign layer ,下面解释一下ROIAlign,2. ROIAlign说到这里,自然要与roi pooling对比。我们先看看roi pooling的原理,这里我们可以看https://github.com...

2019-01-03 10:39:49 1164

原创 记录:invalid next size (normal)问题的解决

最后调试程序的时候,已经能跑出正确结果,但是还是报这个错后来参考了这个网站:https://blog.csdn.net/mociml/article/details/6286311得知是内存泄露的问题。情况有这三种:(1)free了没有分配的内存(2)还有就是分配了内存忘记释放也有可能会出现这样的问题。(3)最后查出来是数组循环的时候越界了 , 写到了其他的内存里面, 然后一free那个...

2018-12-24 12:18:58 21573

原创 linux C下struct定义类的error:“unknown type name"

今天本来已经把其他输出输入输出的地方调通了,但是遇到了这个问题,无论我这个定义的struct是在.c文件的上面,或者是被包含的.h文件中,都显示error:“unknown type name"struct _ksw_data{ int * qlen; uint8_t *query; int * tlen; uint8_t * target; int m; int8_t *mat;...

2018-12-24 12:01:21 41784 3

原创 bwa-mem中的ksw算法到底是怎么回事儿?

ksw算法简介研究了这么久bwa-mem算法,也不知一次啃了ksw这块硬骨头,之前没有好好总结,今天来重点研究一下它。主要研究的对象是ksw_extend2函数,它是一个单线程、非完全匹配的sequence alignment算法,该算法基于动态规划的逻辑,进行数据匹配,由于数据间存在大量相关性,所以不方便并行实现,串行实现有十分耗时,我们的工作就是,把这一块从原工程中拎出来,并改写成GPU加...

2018-12-20 22:21:33 1842 3

原创 hadoop与cuda的几点思考

分布式计算的hadoop与cuda的几点思考最近学习分布式计算,突然想到一个问题,hadoop 和cdua有什么关系。为什么有的问题要并行计算,交给GPU处理,而现在GPU编程的主体是cuda并行计算,有的交给分布式hadoop处理?学习后,受到点启发, 觉得应该是这样的:首先有两种情况:数据密集型、计算密集型1.数据密集型:数量大,但是对每一条数据的处理并不一定麻烦,比如,对1T的文件统...

2018-12-15 22:35:00 822

转载 人像精细分割问题分析

最近参加了一个oppo举办的比赛,做人像精细分割。题目要求是这样的:任务描述随着手机硬件平台和人工智能技术的飞速发展,目前的智能手机基本都可以实现后置双摄像头和前置单摄像头对人像拍照时的背景虚化。在虚化的方法上,后置通过双摄像头来计算景深从而实现前景人像的分割,进而对背景虚化;而前置则直接对单帧图像进行人像分割的方式来虚化背景。这两种方式来带的虚化效果是显著的,但是也存在很多弊端,无论哪种...

2018-12-15 12:50:02 8976 7

原创 BWT表的双端匹配算法

问题:reference:CGTCT;     read:GTC;由read的T开始去匹配,那么在bi-interval模型中他是怎么实现的呢?今天举例来具体复现一下。先对reference取反:GCAGA再对取反后的:reference颠倒位置:AGACGreference 右移:CGTCTAGACG GCGTCTAGAC CGCGTCTAGA ACGCGTCTAG...

2018-12-14 15:46:54 563

原创 bi-interval匹配算法详解

一、参数说明T=ACGTCTCGAGACGT|T|=14T[i]=第i个碱基T[i,j]=第i到第j个碱基的字符串Ti  整个的字符串S:S(i)是第i小的数组的位置B[i]=尾缀数组C(a)共四个值,分别为C(A)C(C)C(G)C(T)    C(A)={0&lt;=i&lt;=n-1:T[i]&lt;A} 的个数O(a,i)=从B[]表从0~i中,a ...

2018-07-24 12:26:12 946 1

原创 线性回归代码分析

# coding: utf-8# If you use python 2, uncomment the following line.# from __future__ import print_function# import numpy as np# import matplotlib.pyplot as pltimport numpy as npimport matplot...

2018-07-21 22:29:32 581

原创 BWA-MEM算法结构分析

一、BWA-MEM函数框架1 读入 bwt、options、reads;2 利用mem_chain生成chain;3 利用mem_chain_flt过滤掉部分chain;4 利用mem_chain2aln生成比对结果元数据。1.第一步:数据输入加载已经生成的bwt表。接口的参数文件名为:xx.fasta;实际中包含具有以下几个后缀名的文件.amb,.ann,.bw...

2018-07-21 11:33:28 15115

转载 SDL2播放YUV

本文记录SDL播放视频的技术。在这里使用的版本是SDL2。实际上SDL本身并不提供视音频播放的功能,它只是封装了视音频播放的底层API。在Windows平台下,SDL封装了Direct3D这类的API用于播放视频;封装了DirectSound这类的API用于播放音频。因为SDL的编写目的就是简化视音频播放的开发难度,所以使用SDL播放视频(YUV/RGB)和音频(PCM)数据非常的容易。下文记录一...

2018-03-12 10:59:33 761

原创 CUDAArray的数据存储顺序

cuda数据排序方式

2017-08-10 15:28:33 1080

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除