自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (2)
  • 收藏
  • 关注

转载 such as , like , for example , for instance , as if 的区别和用法

1. such as = like,都视为介词,其后加名词、代词和动名词等,一般列举不完全的多例,且和举例之间直接相连.如:I have many friends, such as / like Tom, Mary and Jim.2. for example = for instance,视为独立成分,一般只列举一例,和举例之间用逗号隔开,例子形式多样,可以是单词、短语或句子.如:I

2018-01-29 20:39:21 7236

转载 英语写作中常见的“转折”小结

英语写作中常见的“转折”小结 (1)一般意义上的“转折”:but, yet, however,nevertheless(nonetheless), though             首先,我们要注意以上四个词当表达“转折”时的词性不同。But, yet是连词,however, nevertheless(nonetheless)和though是副词。           

2018-01-28 15:53:09 5817

转载 CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起

CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起原创 2016年01月19日 10:04:36标签:cuda /编程 /gpu13937  掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系。

2018-01-27 12:22:00 420

转载 Nsight 学习笔记-相关标准概念

Nsight 学习笔记(一)原创 2015年03月22日 16:26:25标签:CUDA /Nsight /优化 /sm /thread631占用视图占用率(Occupancy) = 每个 SM 中激活的 Warp / 每个 SM可以激活的 Warp 的最大值。其中,Theoretical 表示理论值,是由程序决定

2018-01-26 14:35:12 683

转载 CUDA笔记2:概念理解

CUDA笔记2:概念理解原创 2014年12月29日 11:08:05标签:cuda /并行编程1761CUDA基本概念:CUDA全称是ComputeUnified Device Architecture,中文名称即统一计算设备架构,它是NVIDIA公司提出了一种通用的并行计算平台和编程模型。使用CUDA,我们可以开发出同

2018-01-26 14:32:52 424

转载 VS2012安装CUDA

VS2012安装CUDA原创 2013年10月09日 23:03:1610672前提安装:Visual Studio 2012Visual Assist X安装步骤:1. Nvidia显卡驱动,装275.33版,这是最新版本驱动,初次安装为了少出错,最好安装比较新版本的驱动。2. Cuda Toolkit 4.0安装,CUDA

2018-01-26 14:22:39 251

转载 OpenMP知识点汇总

1、  OpenMP(Open Multi-Processing)官网:http://openmp.org/wp/2、  OpenMP最新版本4.0,2013年7月发布。Visual Studio 2010内置支持OpenMP2.0,选中工程属性->C/C++->Language->Open MP Support:选中Yes(/openmp)即可,然后在文件中加入#include 就可使用

2018-01-20 09:36:45 587

转载 OpenMP共享内存并行编程详解

OpenMP共享内存并行编程详解 实验平台:win7, VS2010 1. 介绍    并行计算机可以简单分为共享内存和分布式内存,共享内存就是多个核心共享一个内存,目前的PC就是这类(不管是只有一个多核CPU还是可以插多个CPU,它们都有多个核心和一个内存),一般的大型计算机结合分布式内存和共享内存结构,即每个计算节点内是共享内存,节点间是分布式内存。想要在这些并行计

2018-01-20 08:51:22 1829

转载 GPU以及CUDA的几个基本概念理解

GPU以及CUDA的几个基本概念理解转载 2016年12月30日 10:48:50标签:cuda /并行计算 /gpu /结构 /线程1868参考:blog.sina.com.cn/s/blog_80ce3a550101lntp.htmlGPU的硬件结构中与CUDA相关的几个概念:thread block grid warp sp s

2018-01-19 19:52:29 562

转载 第二篇:CUDA 并行编程简介

第二篇:CUDA 并行编程简介阅读目录前言GPU 并行的优缺点CUDA 结构CUDA 程序架构CUDA thread 架构CUDA 程序执行模式小结回到顶部前言       并行就是让计算中相同或不同阶段的各个处理同时进行。       目前有很多种实现并行的手段,如多核处理器,分布式系统等,而本专题的文章将主要介绍使用 GPU 实现

2018-01-19 19:45:51 1023

转载 cuda编程-block和thread数量的确定

第一,thread 和block数量的受到gpu本身hard limit的限制第二,取决于目前shared memory and rigisters大小的限制,不能发布太多,否则系统会自动调用local memory,这样存取速度会下降,影响性能第三,取决具体的应用,比如:你的矩阵有1000* 1000,如果你设计的kenel 每个线程处理一行的话,你发布1000现在就够了,或者其

2018-01-19 19:40:06 1125

转载 cuda之thread,block,gird详解

本文将通过一个程序帮助了解线程块的分配,以及线程束,线程全局标号等[cpp] view plain copy#include  #include  #include  #include  #include    #define ARRAY_SIZE 128  #define ARRAY_SIZE_IN_

2018-01-19 18:59:22 563

转载 CUDA:grid和block维度设计

按照CUDA的执行模型,grid中的各个block会被分配到GPU的各个SM中执行。下面我们给出一些建议,如何确定合适的Grid和block尺寸。在设计时,应该优先考虑block的尺寸,而grid的尺寸一般来说越大越好。    在Tesla架构GPU的每个SM中,至少有6个active warp才能有效地隐藏流水线延迟。此外,如果所有的active warp都来自同一block,当这个bloc

2018-01-19 18:58:39 3278 3

转载 CUDA中block和thread的合理划分配置

CUDA中block和thread的合理划分配置标签: CUDAOpenCVGridBlockThread2017-02-04 00:11 6017人阅读 评论(0) 收藏 举报 分类:CUDA(16) 版权声明:本文为博主原创文章,转载请注明出处。CUDA并行编程的基本思路是把一个很大的任务划分成N个简单重复的操作,创建N个

2018-01-19 18:42:46 606

转载 CUDA之Thread、Wrap执行详解

CUDA之Thread、Wrap执行详解2017-03-23 13:53 1052人阅读 评论(0) 收藏 举报 分类:CUDA(32) 版权声明:本文为博主原创文章,未经博主允许不得转载。从硬件角度分析,支持CUDA的NVIDIA 显卡,都是由多个multiprocessors 组成。每个 multiprocessor 里包含了8个stream processors,其组成是四个四个一组,也就是

2018-01-19 10:06:32 425

转载 CUDA编程指南阅读笔记

CUDA编程指南阅读笔记(一)原创 2013年08月01日 20:36:00标签:CUDA /GPU /异构计算 /性能优化4015随着多核CPU和众核GPU的到来,并行编程已经得到了业界越来越多的重视,CPU-GPU异构程序能够极大提高现有计算机系统的运算性能,对于科学计算等运算密集型程序有着非常重要的意义。这一系列文章是根据《CUDA C语言编程指南》来整理的,该指南是NVIDIA公司提供的C

2018-01-18 22:11:11 232

转载 GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系

GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系  前期写代码的时候都会困惑这个实际的threadIdx(tid,实际的线程id)到底是多少,自己写出来的对不对,今天经过自己一些小例子的推敲,以及找到官网的相关介绍,总算自己弄清楚了。      在启动kernel的时候,要通过指定gridsize和blocksize才行,举下面的例

2018-01-18 22:09:18 1957

转载 CUDA中block和thread的合理划分配置

CUDA中block和thread的合理划分配置标签: CUDAOpenCVGridBlockThread2017-02-04 00:11 5849人阅读 评论(0) 收藏 举报 分类:CUDA(15) 版权声明:本文为博主原创文章,转载请注明出处。CUDA并行编程的基本思路是把一个很大的任务划分成N个简单重复的操作,创建N个线程分别执行执行,每个网格(Grid)可以最多创建65535个线程块,每

2018-01-18 20:01:54 582

转载 CUDA并行存储模型

CUDA并行存储模型CUDA将CPU作为主机(Host),GPU作为设备(Device)。一个系统中可以有一个主机和多个设备。CPU负责逻辑性强的事务处理和串行计算,GPU专注于执行高度线程化的并行处理任务。它们拥有相互独立的存储器(主机端的内存和显卡端的显存)。  运行在GPU上的函数称为kernel(内核函数)。一个完整的CUDA程序是由一些列的kernel函数和主机端的串行处理步骤共同完成的

2018-01-18 19:49:25 333

转载 CUDA 6 ---- Warp解析

CUDA 6 ---- Warp解析Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令,并且每个th

2018-01-18 19:47:12 382

转载 CUDA ---- 线程配置 thread 索引

CUDA ---- 线程配置前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2D grid 2D block线程索引矩阵在memory中是row-major线性存储的: 在kernel里,线程的唯一索引非常有用,为了确定一个线程的索引,我们以2D为例:线程和block索引矩阵中元素坐标线性global memory 的偏移首先可以将thread和blo

2018-01-18 19:46:21 411

转载 cuda的block thread wrap 同步与数据处理

cuda的block thread wrap 同步与数据处理原创 2017年01月07日 15:45:57833主要涉及三个函数 和原子同步指令1 __syncthreads();                 使得同一个block之间线程间同步,达到相同的执行点后再往后执行,同时使得修改的全局以及共享内存对block内的线程可见2 __threadfence();          该线程在该

2018-01-18 19:37:22 583

原创 CUDA block threads 之间的数据通信, 核函数kernel之间的数据通信

同一个block内的不同thread可以通过shared memeory进行通信,不同的block 之间的数据通信要通过 global memory每个kernel函数拥有一个grid,不同kernel函数属于不同 block函数

2018-01-18 18:58:48 1171

转载 详解CUDA核函数及运行时参数

详解CUDA核函数及运行时参数核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下:                __global__ void kernel(param list){  }核函数只能在主机端调用,调用时必须申明执行参数。调用形式如下:                Kernel>>(param list);>>运算符内是核函数的执

2018-01-18 18:33:20 680

转载 从15000个Python开源项目中精选的Top30,Github平均star为3707,赶紧收藏!

从15000个Python开源项目中精选的Top30,Github平均star为3707,赶紧收藏!原创 2018年01月15日 17:23:23标签:Python /人工智能1778翻译 | AI科技大本营(ID:rgznai100)参与 | SuiSui继推出2017年机器学习开源项目Top

2018-01-16 14:07:34 257

转载 为什么ASIC的频率可以达到GHz,而FPGA只能达到几百MHz?

为什么ASIC的频率可以达到GHz,而FPGA只能达到几百MHz?岑川复旦大学学渣 微电子393 人赞同了该回答人生第一次啊……竟然上了100赞……好多知乎上一直关注的学长和前辈们还有大V都给点了赞我好受鼓舞啊:-D谢谢大家其实如果是搞FPGA结构或者CAD的话,这些都是基础了,本人

2018-01-16 14:04:52 1542

转载 SIMT和SIMD

百度百科:SIMTSIMT中文译为单指令多线程,英文全称为Single Instruction Multiple ThreadsGPU中的SIMT体系结构相对于CPU的SIMD中的概念。为了有效地管理和执行多个单线程,多处理器采用了SIMT架构。此架构在第一个unified computing GPU中由NVIDIA公司生产的GPU引入。不同于CPU中通过SIMD(

2018-01-15 21:48:33 12619

转载 demand of 和 demand for 区别在哪

含义不同。  demand of:.......的要求;关于......的要求。表示谁的要求。后面如果是人,那么相当于所有格,可换成sb's demand。  demand for :对…的需求。针对什么事情的要求。  "Whatever we do is the demand of the public. " she says.(这里的the demand of the public=the p

2018-01-06 22:34:18 10130

转载 be composed of与consist of与be made up of各自区别是什么?

consist和of搭配,表示一个事物由几个部分组成,它的主语应该是事物的整体,宾语为部分,它只能用主动语态。例如;The team consists of four Europeans and two Americans.compose是“组成”的意思,相当于"make up',它的主浯为部分,宾语为整体。但它常用过去分词作表语,跟of引起的短语。例如:Men and women evenly

2018-01-06 22:08:46 14735

转载 where 引导从句

一、Where引导定语从句—形容词性从句当where 引导定语从句时,Where前有表示地点的先行词,where 引导的从句修饰先行词,Where是关系副词,在从句中作地点状语。例如:1.He's got himself into a dangerous situation where he is likely to lose control over the plane .(20

2018-01-06 19:41:25 1699

转载 Verilog中可综合及不可综合语句概述

Verilog中可综合及不可综合语句概述2017-06-02 23:51 379人阅读 评论(0) 收藏 举报 分类:FPGA(4) Verilog中可综合及不可综合语句概述  Verilog硬件描述语言有很完整的语法结构和系统,类似高级语言,这些语法结构的应用给我们的设计描述带来很多方便。但是,我们知道,Verilog是

2018-01-02 13:05:31 6919

转载 verilog 2001中的一些新语法

比较有用的:1,generate语句,但需注意,generate-for中变量范围是已知的确定值, generate-case,generate-if语句中变量都必须是固定的,generate必须跟endgenerate 中间begin加块名。2,算术左移右移3,有符号数,其实就是两个变量位宽不一致做运算的时候,低位宽的补齐位宽的方式与以前发生了变化,原来是用零补齐,现在看

2018-01-02 10:54:03 2210

Xilinx FPGA XDC约束技巧

Xilinx FPGA XDC约束技巧

2017-12-25

Optimizing parallel reduction in CUDA 规约优化文档

Optimizing parallel reduction in CUDA 规约优化文档

2017-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除