2018年01月_Tiger-Li

转载 such as , like , for example , for instance , as if 的区别和用法

1. such as = like,都视为介词,其后加名词、代词和动名词等,一般列举不完全的多例,且和举例之间直接相连.如：I have many friends, such as / like Tom, Mary and Jim.2. for example = for instance,视为独立成分,一般只列举一例,和举例之间用逗号隔开,例子形式多样,可以是单词、短语或句子.如：I

2018-01-29 20:39:21 7236

转载英语写作中常见的“转折”小结

英语写作中常见的“转折”小结 (1)一般意义上的“转折”：but, yet, however,nevertheless(nonetheless), though 首先，我们要注意以上四个词当表达“转折”时的词性不同。But, yet是连词，however, nevertheless(nonetheless)和though是副词。

2018-01-28 15:53:09 5817

转载 CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起

CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起原创 2016年01月19日 10:04:36标签：cuda /编程 /gpu13937　　掌握部分硬件知识，有助于程序员编写更好的CUDA程序，提升CUDA程序性能，本文目的是理清sp，sm，thread，block，grid，warp之间的关系。

2018-01-27 12:22:00 420

转载 Nsight 学习笔记-相关标准概念

Nsight 学习笔记(一)原创 2015年03月22日 16:26:25标签：CUDA /Nsight /优化 /sm /thread631占用视图占用率(Occupancy) = 每个 SM 中激活的 Warp / 每个 SM可以激活的 Warp 的最大值。其中，Theoretical 表示理论值，是由程序决定

2018-01-26 14:35:12 683

转载 CUDA笔记2：概念理解

CUDA笔记2：概念理解原创 2014年12月29日 11:08:05标签：cuda /并行编程1761CUDA基本概念：CUDA全称是ComputeUnified Device Architecture，中文名称即统一计算设备架构，它是NVIDIA公司提出了一种通用的并行计算平台和编程模型。使用CUDA，我们可以开发出同

2018-01-26 14:32:52 424

转载 VS2012安装CUDA

VS2012安装CUDA原创 2013年10月09日 23:03:1610672前提安装：Visual Studio 2012Visual Assist X安装步骤：1. Nvidia显卡驱动，装275.33版，这是最新版本驱动，初次安装为了少出错，最好安装比较新版本的驱动。2. Cuda Toolkit 4.0安装，CUDA

2018-01-26 14:22:39 251

转载 OpenMP知识点汇总

1、 OpenMP(Open Multi-Processing)官网：http://openmp.org/wp/2、 OpenMP最新版本4.0，2013年7月发布。Visual Studio 2010内置支持OpenMP2.0，选中工程属性->C/C++->Language->Open MP Support:选中Yes(/openmp)即可，然后在文件中加入#include 就可使用

2018-01-20 09:36:45 587

转载 OpenMP共享内存并行编程详解

OpenMP共享内存并行编程详解实验平台：win7， VS2010 1. 介绍并行计算机可以简单分为共享内存和分布式内存，共享内存就是多个核心共享一个内存，目前的PC就是这类（不管是只有一个多核CPU还是可以插多个CPU，它们都有多个核心和一个内存），一般的大型计算机结合分布式内存和共享内存结构，即每个计算节点内是共享内存，节点间是分布式内存。想要在这些并行计

2018-01-20 08:51:22 1829

转载 GPU以及CUDA的几个基本概念理解

GPU以及CUDA的几个基本概念理解转载 2016年12月30日 10:48:50标签：cuda /并行计算 /gpu /结构 /线程1868参考：blog.sina.com.cn/s/blog_80ce3a550101lntp.htmlGPU的硬件结构中与CUDA相关的几个概念：thread block grid warp sp s

2018-01-19 19:52:29 562

转载第二篇：CUDA 并行编程简介

第二篇：CUDA 并行编程简介阅读目录前言GPU 并行的优缺点CUDA 结构CUDA 程序架构CUDA thread 架构CUDA 程序执行模式小结回到顶部前言并行就是让计算中相同或不同阶段的各个处理同时进行。目前有很多种实现并行的手段，如多核处理器，分布式系统等，而本专题的文章将主要介绍使用 GPU 实现

2018-01-19 19:45:51 1023

转载 cuda编程-block和thread数量的确定

第一，thread 和block数量的受到gpu本身hard limit的限制第二，取决于目前shared memory and rigisters大小的限制，不能发布太多，否则系统会自动调用local memory，这样存取速度会下降，影响性能第三，取决具体的应用，比如：你的矩阵有1000* 1000，如果你设计的kenel 每个线程处理一行的话，你发布1000现在就够了，或者其

2018-01-19 19:40:06 1125

转载 cuda之thread,block,gird详解

本文将通过一个程序帮助了解线程块的分配，以及线程束，线程全局标号等[cpp] view plain copy#include #include #include #include #include #define ARRAY_SIZE 128 #define ARRAY_SIZE_IN_

2018-01-19 18:59:22 563

转载 CUDA:grid和block维度设计

按照CUDA的执行模型，grid中的各个block会被分配到GPU的各个SM中执行。下面我们给出一些建议，如何确定合适的Grid和block尺寸。在设计时，应该优先考虑block的尺寸，而grid的尺寸一般来说越大越好。在Tesla架构GPU的每个SM中，至少有6个active warp才能有效地隐藏流水线延迟。此外，如果所有的active warp都来自同一block，当这个bloc

2018-01-19 18:58:39 3278 3

CUDA编程指南阅读笔记（一）原创 2013年08月01日 20:36:00标签：CUDA /GPU /异构计算 /性能优化4015随着多核CPU和众核GPU的到来，并行编程已经得到了业界越来越多的重视，CPU-GPU异构程序能够极大提高现有计算机系统的运算性能，对于科学计算等运算密集型程序有着非常重要的意义。这一系列文章是根据《CUDA C语言编程指南》来整理的，该指南是NVIDIA公司提供的C

2018-01-18 22:11:11 232

转载 GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系

GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系　　前期写代码的时候都会困惑这个实际的threadIdx（tid，实际的线程id）到底是多少，自己写出来的对不对，今天经过自己一些小例子的推敲，以及找到官网的相关介绍，总算自己弄清楚了。在启动kernel的时候，要通过指定gridsize和blocksize才行，举下面的例

2018-01-18 22:09:18 1957

转载 CUDA中block和thread的合理划分配置

2018-01-18 20:01:54 582

转载 CUDA并行存储模型

CUDA并行存储模型CUDA将CPU作为主机（Host），GPU作为设备（Device）。一个系统中可以有一个主机和多个设备。CPU负责逻辑性强的事务处理和串行计算，GPU专注于执行高度线程化的并行处理任务。它们拥有相互独立的存储器（主机端的内存和显卡端的显存）。运行在GPU上的函数称为kernel（内核函数）。一个完整的CUDA程序是由一些列的kernel函数和主机端的串行处理步骤共同完成的

2018-01-18 19:49:25 333

转载 CUDA 6 ---- Warp解析

CUDA 6 ---- Warp解析Warp逻辑上，所有thread是并行的，但是，从硬件的角度来说，实际上并不是所有的thread能够在同一时刻执行，接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread，这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令，并且每个th

2018-01-18 19:47:12 382

转载 CUDA ---- 线程配置 thread 索引

CUDA ---- 线程配置前言线程的组织形式对程序的性能影响是至关重要的，本篇博文主要以下面一种情况来介绍线程组织形式：2D grid 2D block线程索引矩阵在memory中是row-major线性存储的：在kernel里，线程的唯一索引非常有用，为了确定一个线程的索引，我们以2D为例：线程和block索引矩阵中元素坐标线性global memory 的偏移首先可以将thread和blo

2018-01-18 19:46:21 411

转载 cuda的block thread wrap 同步与数据处理

cuda的block thread wrap 同步与数据处理原创 2017年01月07日 15:45:57833主要涉及三个函数和原子同步指令1 __syncthreads(); 使得同一个block之间线程间同步，达到相同的执行点后再往后执行，同时使得修改的全局以及共享内存对block内的线程可见2 __threadfence(); 该线程在该

2018-01-18 19:37:22 583

原创 CUDA block threads 之间的数据通信，核函数kernel之间的数据通信

同一个block内的不同thread可以通过shared memeory进行通信，不同的block 之间的数据通信要通过 global memory每个kernel函数拥有一个grid，不同kernel函数属于不同 block函数

2018-01-18 18:58:48 1171

转载详解CUDA核函数及运行时参数

详解CUDA核函数及运行时参数核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下： __global__ void kernel(param list){ }核函数只能在主机端调用，调用时必须申明执行参数。调用形式如下： Kernel>>(param list);>>运算符内是核函数的执

2018-01-18 18:33:20 680

转载从15000个Python开源项目中精选的Top30，Github平均star为3707，赶紧收藏！

从15000个Python开源项目中精选的Top30，Github平均star为3707，赶紧收藏！原创 2018年01月15日 17:23:23标签：Python /人工智能1778翻译 | AI科技大本营（ID：rgznai100）参与 | SuiSui继推出2017年机器学习开源项目Top

2018-01-16 14:07:34 257

转载为什么ASIC的频率可以达到GHz，而FPGA只能达到几百MHz？

为什么ASIC的频率可以达到GHz，而FPGA只能达到几百MHz？岑川复旦大学学渣微电子393 人赞同了该回答人生第一次啊……竟然上了100赞……好多知乎上一直关注的学长和前辈们还有大V都给点了赞我好受鼓舞啊:-D谢谢大家其实如果是搞FPGA结构或者CAD的话，这些都是基础了，本人

2018-01-16 14:04:52 1542

转载 SIMT和SIMD

百度百科：SIMTSIMT中文译为单指令多线程，英文全称为Single Instruction Multiple ThreadsGPU中的SIMT体系结构相对于CPU的SIMD中的概念。为了有效地管理和执行多个单线程，多处理器采用了SIMT架构。此架构在第一个unified computing GPU中由NVIDIA公司生产的GPU引入。不同于CPU中通过SIMD（

2018-01-15 21:48:33 12619

转载 demand of 和 demand for 区别在哪

含义不同。　　demand of：.......的要求；关于......的要求。表示谁的要求。后面如果是人，那么相当于所有格，可换成sb's demand。　　demand for ：对…的需求。针对什么事情的要求。　　"Whatever we do is the demand of the public. " she says.（这里的the demand of the public=the p

2018-01-06 22:34:18 10130

转载 be composed of与consist of与be made up of各自区别是什么？

consist和of搭配，表示一个事物由几个部分组成，它的主语应该是事物的整体，宾语为部分，它只能用主动语态。例如；The team consists of four Europeans and two Americans．compose是“组成”的意思，相当于"make up'，它的主浯为部分，宾语为整体。但它常用过去分词作表语，跟of引起的短语。例如：Men and women evenly

2018-01-06 22:08:46 14735

转载 where 引导从句

一、Where引导定语从句—形容词性从句当where 引导定语从句时，Where前有表示地点的先行词，where 引导的从句修饰先行词，Where是关系副词，在从句中作地点状语。例如：1.He's got himself into a dangerous situation where he is likely to lose control over the plane .(20

2018-01-06 19:41:25 1699

转载 Verilog中可综合及不可综合语句概述

Verilog中可综合及不可综合语句概述2017-06-02 23:51 379人阅读评论(0) 收藏举报分类：FPGA（4） Verilog中可综合及不可综合语句概述 Verilog硬件描述语言有很完整的语法结构和系统，类似高级语言，这些语法结构的应用给我们的设计描述带来很多方便。但是，我们知道，Verilog是

2018-01-02 13:05:31 6919

转载 verilog 2001中的一些新语法

比较有用的：1，generate语句，但需注意，generate-for中变量范围是已知的确定值， generate-case，generate-if语句中变量都必须是固定的，generate必须跟endgenerate 中间begin加块名。2，算术左移右移3，有符号数，其实就是两个变量位宽不一致做运算的时候，低位宽的补齐位宽的方式与以前发生了变化，原来是用零补齐，现在看

2018-01-02 10:54:03 2210

kebu12345678的博客

转载 such as , like , for example , for instance , as if 的区别和用法

转载英语写作中常见的“转折”小结

转载 CUDA编程——GPU架构，由sp，sm，thread，block，grid，warp说起

转载 Nsight 学习笔记-相关标准概念

转载 CUDA笔记2：概念理解

转载 VS2012安装CUDA

转载 OpenMP知识点汇总

转载 OpenMP共享内存并行编程详解

转载 GPU以及CUDA的几个基本概念理解

转载第二篇：CUDA 并行编程简介

转载 cuda编程-block和thread数量的确定

转载 cuda之thread,block,gird详解

转载 CUDA:grid和block维度设计

转载 CUDA中block和thread的合理划分配置

转载 CUDA之Thread、Wrap执行详解

转载 CUDA编程指南阅读笔记

转载 GPU CUDA编程中threadIdx, blockIdx, blockDim, gridDim之间的区别与联系

转载 CUDA中block和thread的合理划分配置

转载 CUDA并行存储模型

转载 CUDA 6 ---- Warp解析

转载 CUDA ---- 线程配置 thread 索引

转载 cuda的block thread wrap 同步与数据处理

原创 CUDA block threads 之间的数据通信，核函数kernel之间的数据通信

转载详解CUDA核函数及运行时参数

转载从15000个Python开源项目中精选的Top30，Github平均star为3707，赶紧收藏！

转载为什么ASIC的频率可以达到GHz，而FPGA只能达到几百MHz？

转载 SIMT和SIMD

转载 demand of 和 demand for 区别在哪

转载 be composed of与consist of与be made up of各自区别是什么？

转载 where 引导从句

转载 Verilog中可综合及不可综合语句概述

转载 verilog 2001中的一些新语法

Xilinx FPGA XDC约束技巧

Optimizing parallel reduction in CUDA 规约优化文档

空空如也