Intel Threading Building Blocks (TBB入门)

简单地说OPENMP适合那些可以通过静态分析就能做的并行,例如有确定次数的FOR循环并且可以被拆分. 而TBB更加智能, 可以进行动态的分配,例如自动分解任务,并动态分配到各个线程上去. 显然TBB更强大, 但应用也必然要稍微复杂一点, OPENMP在适合的场景下可以拿来就用.

TBB一个非常强大的功能是动态的线程负载平衡. 它自动为每个核创建一个线程,并保证每个线程都满负荷运行.当一个线程空闲时会自动从别的线程"偷"任务来执行,这些都是TBB自动完成的. 而OPENMP根本没有这样的功能. 

简单地说,有原来的串行代码,通过OpenMP引入并行;TBB更适合C++或者创建新的并行应用
而在物理上分布式的多机环境,MPI可能是最合适的选择
线程个数,一般应该和系统中的总核数(=单个CPU内核数*CPU数)相等,如果应用的并行算法设计没什么大问题

个人感觉TBB的思路有点类似于MPI,是在运行时用了个模板来把任务分配到多个线程中执行的,好处在于粒度可以自己控制,不至于像OpenMP一样只能以原子级分配。又不是MPI那样在不同的进程之间交换数据,比较适用于单台计算机多内核的场景。水平有限,错了别鄙视我 ^_^

TBB入门

 

获取TBB

TBB的官方网站在http://threadingbuildingblocks.org/,可以在它的Downloads页面里找到Commercial Aligned Release,最新版是tbb20_014,Windows上开发需要下载tbb20_014oss_src.tar.gztbb20_014oss_win.tar.gz。其它支持的平台有linux和mac。

将下载后的压缩包解压后,tbb20_014oss_win.tar.gz里有:

tbb20_20070927oss_win/

em64t/    # Intel Extended Memory 64 Technology (Intel EM64T) Processor

vc7.1/

bin/

lib/

vc8/

ia32/              # Intel IA-32 Processor

vc7.1/

bin/

lib/

vc8/

bin/

lib/

我的处理器是IA32架构的(Intel P4),所以使用ia32下的库文件即可。

tbb20_014oss_src.tar.gz里有用的主要是include/目录,下面有TBB用到的所有头文件,当然examples/目录下有很多TBB的示例,可供学习。

 

配置

在VC2005里,“工具”è“选项”里,设置VC++的包含文件和库文件,如下图:

TBB在VC2005里的配置

示例

在VC2005里新建一个项目,输入如下代码,编译运行。

#include  " stdafx.h "
#include 
" tbb/task_scheduler_init.h "
#include 
" tbb/blocked_range.h "
#include 
" tbb/parallel_for.h "

//  链接tbb_debug.lib
#pragma  comment(lib, "tbb_debug.lib")

using   namespace  tbb;

//  对每个Item执行该操作
void  Foo( float  value)
{
    printf(
"%.2f ", value);
}


class  ApplyFoo
{
    
float * const my_a;
public:
    
void operator () (const blocked_range<size_t> & r) const
    
{
        
float * a = my_a;
        
for (size_t i = r.begin(); i != r.end(); ++ i)
            Foo(a[i]);
    }

    
    ApplyFoo(
float a[]) : my_a(a) {}
}
;

int  _tmain( int  argc, _TCHAR *  argv[])
{
    
// 创建task scheduler
    
// task_scheduler_init支持一个参数,以指定使用的线程数
    task_scheduler_init init;
    
float a[100];
    
for (int i = 0; i < 100; i ++)
        a[i] 
= (float)i;
    
// TBB会把数组分成若干的block
    
// 对block调用ApplyFoo这个functor
    parallel_for(blocked_range<size_t>(0100), ApplyFoo(a));
    
return 0;
}


该示例创建一个大小为100的数组,利用TBB提供的parallel_for算法对该数组应用并行算法,对每个Item应用Foo函数。在运行时我们会看到有多个线程同时执行Foo,在多核平台上运行结果更明显。

 

通过这个例子我们可以发现用TBB可以很好地方便并行程序的编写,通过TBB提供的算法可以实现对并行概念的抽象。

 

TBB组成

TBB里的内容大致可以分为以下几类:

-          通用并行算法

o         这是TBB里最主要的一大部分,比如示例里的parallel_for就是这部分的一个算法

o         TBB提供了parallel_for,parallel_while,parallel_reduce等算法,应用于不同的并行算法场景

-          并发容器

o         这是对常见容器的线程安全版本的实现,同时考虑到performance的要求,提供了细粒度的锁机制,TBB2.0里提供的容器包括hash map,vector,queue。

-          任务调度器

o         提供了task机制的封装

-          同步原语

o         提供了原子操作、mutex、lock等同步原语的封装

-          内存分配

o       提供了对cache机制更友好的支持

 

它们之间的关系如下图:

 TBB组成

 
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值