Altera笔记:Introduction to Parallel Computing with OpenCL

   今天注册了altera的training课程,想看看OpenCL写FPGA是怎么写(只知道用HDL写FPGA)。

   heterogeneous computing 需要在CPU DSP上面写sequential code,同时在FPGA上面用VHDL/Verilog来实现fine grained parallelism and vectoring。不过这样在写的时候或者在运行的时候会有很多调试等等的工作,导致开发效率低下。

   以往来说,parallelism是侧重于写ILP给OoO processor。但是现在随着core 复杂化,这样不行。于是改成tlp,也就是要显式的写成thread level parallelism来利用多核heterogenious 环境。所以一个通用的并行编程的middle layer(ren:中间层)就可以实现在多种不同架构的硬件上编程,而不需要分为C++/Java和HDL。

   写并行程序有2大难点:

1. 把顺序算法设计成并行以利用多核的heterogeneous硬件;

2. 解决data sharing和Synchronization issues。

在并行运行的时候,data dependency就是很大问题。例如,在5级pipeline(就是一种task parallelism where pipes have a producer-consumer relation)的MIPS中就会有RAW和superscaler时会有WAW和WAR。这时候会有牵涉到硬件设计的:Uniform address spaces, cache coherency(这个面试常常会考,2个protocal要理解)。

  不过OpenCL提供了abstract model for parallelism, 以及data sharing跟Synchronization的机制。


  2个并行编程的方法:scatter and gathering (data parallelism) 和 divide and conquer(task parallelism)。一般都会把2个混着用。


  scatter and gather: 可以用SIMD。 

  Divide and conquer: 可以用simultaneous multithreading (SMT)。“A modern GPU contains a set of multi-threaded streaming multiprocessors (SM), which are discrete independent execution units.”  点击打开链接 这里有个详细的分析:SIMD < SIMT < SMT: parallelism in NVIDIA GPUs 点击打开链接


......................................


接下来可以上:

We recommend completing the following courses:

不过还是得有板子才行


那有了C code就不用设计成Verilog就能port到FPGA上面?真厉害。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值