- 博客(32)
- 资源 (2)
- 收藏
- 关注
转载 such as , like , for example , for instance , as if 的区别和用法
1. such as = like,都视为介词,其后加名词、代词和动名词等,一般列举不完全的多例,且和举例之间直接相连.如:I have many friends, such as / like Tom, Mary and Jim.2. for example = for instance,视为独立成分,一般只列举一例,和举例之间用逗号隔开,例子形式多样,可以是单词、短语或句子.如:I
2018-01-29 20:39:21 7236
转载 英语写作中常见的“转折”小结
英语写作中常见的“转折”小结 (1)一般意义上的“转折”:but, yet, however,nevertheless(nonetheless), though 首先,我们要注意以上四个词当表达“转折”时的词性不同。But, yet是连词,however, nevertheless(nonetheless)和though是副词。
2018-01-28 15:53:09 5817
转载 CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起
CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起原创 2016年01月19日 10:04:36标签:cuda /编程 /gpu13937 掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系。
2018-01-27 12:22:00 420
转载 Nsight 学习笔记-相关标准概念
Nsight 学习笔记(一)原创 2015年03月22日 16:26:25标签:CUDA /Nsight /优化 /sm /thread631占用视图占用率(Occupancy) = 每个 SM 中激活的 Warp / 每个 SM可以激活的 Warp 的最大值。其中,Theoretical 表示理论值,是由程序决定
2018-01-26 14:35:12 683
转载 CUDA笔记2:概念理解
CUDA笔记2:概念理解原创 2014年12月29日 11:08:05标签:cuda /并行编程1761CUDA基本概念:CUDA全称是ComputeUnified Device Architecture,中文名称即统一计算设备架构,它是NVIDIA公司提出了一种通用的并行计算平台和编程模型。使用CUDA,我们可以开发出同
2018-01-26 14:32:52 424
转载 VS2012安装CUDA
VS2012安装CUDA原创 2013年10月09日 23:03:1610672前提安装:Visual Studio 2012Visual Assist X安装步骤:1. Nvidia显卡驱动,装275.33版,这是最新版本驱动,初次安装为了少出错,最好安装比较新版本的驱动。2. Cuda Toolkit 4.0安装,CUDA
2018-01-26 14:22:39 251
转载 OpenMP知识点汇总
1、 OpenMP(Open Multi-Processing)官网:http://openmp.org/wp/2、 OpenMP最新版本4.0,2013年7月发布。Visual Studio 2010内置支持OpenMP2.0,选中工程属性->C/C++->Language->Open MP Support:选中Yes(/openmp)即可,然后在文件中加入#include 就可使用
2018-01-20 09:36:45 587
转载 OpenMP共享内存并行编程详解
OpenMP共享内存并行编程详解 实验平台:win7, VS2010 1. 介绍 并行计算机可以简单分为共享内存和分布式内存,共享内存就是多个核心共享一个内存,目前的PC就是这类(不管是只有一个多核CPU还是可以插多个CPU,它们都有多个核心和一个内存),一般的大型计算机结合分布式内存和共享内存结构,即每个计算节点内是共享内存,节点间是分布式内存。想要在这些并行计
2018-01-20 08:51:22 1829
转载 GPU以及CUDA的几个基本概念理解
GPU以及CUDA的几个基本概念理解转载 2016年12月30日 10:48:50标签:cuda /并行计算 /gpu /结构 /线程1868参考:blog.sina.com.cn/s/blog_80ce3a550101lntp.htmlGPU的硬件结构中与CUDA相关的几个概念:thread block grid warp sp s
2018-01-19 19:52:29 562
转载 第二篇:CUDA 并行编程简介
第二篇:CUDA 并行编程简介阅读目录前言GPU 并行的优缺点CUDA 结构CUDA 程序架构CUDA thread 架构CUDA 程序执行模式小结回到顶部前言 并行就是让计算中相同或不同阶段的各个处理同时进行。 目前有很多种实现并行的手段,如多核处理器,分布式系统等,而本专题的文章将主要介绍使用 GPU 实现
2018-01-19 19:45:51 1023
转载 cuda编程-block和thread数量的确定
第一,thread 和block数量的受到gpu本身hard limit的限制第二,取决于目前shared memory and rigisters大小的限制,不能发布太多,否则系统会自动调用local memory,这样存取速度会下降,影响性能第三,取决具体的应用,比如:你的矩阵有1000* 1000,如果你设计的kenel 每个线程处理一行的话,你发布1000现在就够了,或者其
2018-01-19 19:40:06 1125
转载 cuda之thread,block,gird详解
本文将通过一个程序帮助了解线程块的分配,以及线程束,线程全局标号等[cpp] view plain copy#include #include #include #include #include #define ARRAY_SIZE 128 #define ARRAY_SIZE_IN_
2018-01-19 18:59:22 563
转载 CUDA:grid和block维度设计
按照CUDA的执行模型,grid中的各个block会被分配到GPU的各个SM中执行。下面我们给出一些建议,如何确定合适的Grid和block尺寸。在设计时,应该优先考虑block的尺寸,而grid的尺寸一般来说越大越好。 在Tesla架构GPU的每个SM中,至少有6个active warp才能有效地隐藏流水线延迟。此外,如果所有的active warp都来自同一block,当这个bloc
2018-01-19 18:58:39 3278 3
转载 CUDA中block和thread的合理划分配置
CUDA中block和thread的合理划分配置标签: CUDAOpenCVGridBlockThread2017-02-04 00:11 6017人阅读 评论(0) 收藏 举报 分类:CUDA(16) 版权声明:本文为博主原创文章,转载请注明出处。CUDA并行编程的基本思路是把一个很大的任务划分成N个简单重复的操作,创建N个
2018-01-19 18:42:46 606
转载 CUDA之Thread、Wrap执行详解
CUDA之Thread、Wrap执行详解2017-03-23 13:53 1052人阅读 评论(0) 收藏 举报 分类:CUDA(32) 版权声明:本文为博主原创文章,未经博主允许不得转载。从硬件角度分析,支持CUDA的NVIDIA 显卡,都是由多个multiprocessors 组成。每个 multiprocessor 里包含了8个stream processors,其组成是四个四个一组,也就是
2018-01-19 10:06:32 425
转载 CUDA编程指南阅读笔记
CUDA编程指南阅读笔记(一)原创 2013年08月01日 20:36:00标签:CUDA /GPU /异构计算 /性能优化4015随着多核CPU和众核GPU的到来,并行编程已经得到了业界越来越多的重视,CPU-GPU异构程序能够极大提高现有计算机系统的运算性能,对于科学计算等运算密集型程序有着非常重要的意义。这一系列文章是根据《CUDA C语言编程指南》来整理的,该指南是NVIDIA公司提供的C
2018-01-18 22:11:11 232
转载 GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系
GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系 前期写代码的时候都会困惑这个实际的threadIdx(tid,实际的线程id)到底是多少,自己写出来的对不对,今天经过自己一些小例子的推敲,以及找到官网的相关介绍,总算自己弄清楚了。 在启动kernel的时候,要通过指定gridsize和blocksize才行,举下面的例
2018-01-18 22:09:18 1957
转载 CUDA中block和thread的合理划分配置
CUDA中block和thread的合理划分配置标签: CUDAOpenCVGridBlockThread2017-02-04 00:11 5849人阅读 评论(0) 收藏 举报 分类:CUDA(15) 版权声明:本文为博主原创文章,转载请注明出处。CUDA并行编程的基本思路是把一个很大的任务划分成N个简单重复的操作,创建N个线程分别执行执行,每个网格(Grid)可以最多创建65535个线程块,每
2018-01-18 20:01:54 582
转载 CUDA并行存储模型
CUDA并行存储模型CUDA将CPU作为主机(Host),GPU作为设备(Device)。一个系统中可以有一个主机和多个设备。CPU负责逻辑性强的事务处理和串行计算,GPU专注于执行高度线程化的并行处理任务。它们拥有相互独立的存储器(主机端的内存和显卡端的显存)。 运行在GPU上的函数称为kernel(内核函数)。一个完整的CUDA程序是由一些列的kernel函数和主机端的串行处理步骤共同完成的
2018-01-18 19:49:25 333
转载 CUDA 6 ---- Warp解析
CUDA 6 ---- Warp解析Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令,并且每个th
2018-01-18 19:47:12 382
转载 CUDA ---- 线程配置 thread 索引
CUDA ---- 线程配置前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2D grid 2D block线程索引矩阵在memory中是row-major线性存储的: 在kernel里,线程的唯一索引非常有用,为了确定一个线程的索引,我们以2D为例:线程和block索引矩阵中元素坐标线性global memory 的偏移首先可以将thread和blo
2018-01-18 19:46:21 411
转载 cuda的block thread wrap 同步与数据处理
cuda的block thread wrap 同步与数据处理原创 2017年01月07日 15:45:57833主要涉及三个函数 和原子同步指令1 __syncthreads(); 使得同一个block之间线程间同步,达到相同的执行点后再往后执行,同时使得修改的全局以及共享内存对block内的线程可见2 __threadfence(); 该线程在该
2018-01-18 19:37:22 583
原创 CUDA block threads 之间的数据通信, 核函数kernel之间的数据通信
同一个block内的不同thread可以通过shared memeory进行通信,不同的block 之间的数据通信要通过 global memory每个kernel函数拥有一个grid,不同kernel函数属于不同 block函数
2018-01-18 18:58:48 1171
转载 详解CUDA核函数及运行时参数
详解CUDA核函数及运行时参数核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下: __global__ void kernel(param list){ }核函数只能在主机端调用,调用时必须申明执行参数。调用形式如下: Kernel>>(param list);>>运算符内是核函数的执
2018-01-18 18:33:20 680
转载 从15000个Python开源项目中精选的Top30,Github平均star为3707,赶紧收藏!
从15000个Python开源项目中精选的Top30,Github平均star为3707,赶紧收藏!原创 2018年01月15日 17:23:23标签:Python /人工智能1778翻译 | AI科技大本营(ID:rgznai100)参与 | SuiSui继推出2017年机器学习开源项目Top
2018-01-16 14:07:34 257
转载 为什么ASIC的频率可以达到GHz,而FPGA只能达到几百MHz?
为什么ASIC的频率可以达到GHz,而FPGA只能达到几百MHz?岑川复旦大学学渣 微电子393 人赞同了该回答人生第一次啊……竟然上了100赞……好多知乎上一直关注的学长和前辈们还有大V都给点了赞我好受鼓舞啊:-D谢谢大家其实如果是搞FPGA结构或者CAD的话,这些都是基础了,本人
2018-01-16 14:04:52 1542
转载 SIMT和SIMD
百度百科:SIMTSIMT中文译为单指令多线程,英文全称为Single Instruction Multiple ThreadsGPU中的SIMT体系结构相对于CPU的SIMD中的概念。为了有效地管理和执行多个单线程,多处理器采用了SIMT架构。此架构在第一个unified computing GPU中由NVIDIA公司生产的GPU引入。不同于CPU中通过SIMD(
2018-01-15 21:48:33 12619
转载 demand of 和 demand for 区别在哪
含义不同。 demand of:.......的要求;关于......的要求。表示谁的要求。后面如果是人,那么相当于所有格,可换成sb's demand。 demand for :对…的需求。针对什么事情的要求。 "Whatever we do is the demand of the public. " she says.(这里的the demand of the public=the p
2018-01-06 22:34:18 10130
转载 be composed of与consist of与be made up of各自区别是什么?
consist和of搭配,表示一个事物由几个部分组成,它的主语应该是事物的整体,宾语为部分,它只能用主动语态。例如;The team consists of four Europeans and two Americans.compose是“组成”的意思,相当于"make up',它的主浯为部分,宾语为整体。但它常用过去分词作表语,跟of引起的短语。例如:Men and women evenly
2018-01-06 22:08:46 14735
转载 where 引导从句
一、Where引导定语从句—形容词性从句当where 引导定语从句时,Where前有表示地点的先行词,where 引导的从句修饰先行词,Where是关系副词,在从句中作地点状语。例如:1.He's got himself into a dangerous situation where he is likely to lose control over the plane .(20
2018-01-06 19:41:25 1699
转载 Verilog中可综合及不可综合语句概述
Verilog中可综合及不可综合语句概述2017-06-02 23:51 379人阅读 评论(0) 收藏 举报 分类:FPGA(4) Verilog中可综合及不可综合语句概述 Verilog硬件描述语言有很完整的语法结构和系统,类似高级语言,这些语法结构的应用给我们的设计描述带来很多方便。但是,我们知道,Verilog是
2018-01-02 13:05:31 6919
转载 verilog 2001中的一些新语法
比较有用的:1,generate语句,但需注意,generate-for中变量范围是已知的确定值, generate-case,generate-if语句中变量都必须是固定的,generate必须跟endgenerate 中间begin加块名。2,算术左移右移3,有符号数,其实就是两个变量位宽不一致做运算的时候,低位宽的补齐位宽的方式与以前发生了变化,原来是用零补齐,现在看
2018-01-02 10:54:03 2210
Optimizing parallel reduction in CUDA 规约优化文档
2017-12-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人