.NET4.0并行计算技术基础（12）——上

最新推荐文章于 2011-02-10 16:04:00 发布

weixin_34375233

最新推荐文章于 2011-02-10 16:04:00 发布

阅读量83

点赞数

原文链接：http://blog.51cto.com/bitfan/215152

版权

这是本系列文章中的最后一篇，与前11讲一起，构成了一个对“.NET 4.0并行计算”技术领域的完整介绍。

微软10月22日刚向公众提供了Visual Studio 2010与.NET 4.0 BETA2的下载链接，而我正在下载当中。BETA2已与正式版非常接近了，在安装完VS2010 BETA2后，所有新旧实例均会转移到此新版本中，我再写的新文章也会针对BETA2。

相信大家都会非常关注VS2010与.NET 4.0，我过几天会发布一篇《迎接新一轮的技术浪潮》作为本系列文章的结束语，谈谈我对.NET 4.0新技术的观点，并介绍我的新著的相关情况。

金旭亮

2009.10.22

附注：由于51CTO对博客的字数限制，所以这一部分不得不分为三部分发出。

============================================

.NET4.0并行计算技术基础（12）——上

这是一个系列讲座，前面几讲的链接为：

.NET 4.0 并行计算技术基础(1)

.NET 4.0 并行计算技术基础(2)

. NET 4.0并行计算技术基础(3)

. NET4.0并行计算技术基础(4)

.NET4.0并行计算技术基础（5）

.NET 4.0并行计算技术基础（6）

.NET4.0并行计算技术基础（7）

.NET4.0并行计算技术基础（8）

.NET4.0并行计算技术基础（9）

.NET4.0并行计算技术基础（10）

. NET 4.0并行计算技术基础（11）

================================================

3自定义的聚合函数<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

所谓“聚合函数（Aggregate Function）”，其实就是对数据集合进行某种处理后得到的单一结果，比如统计一批数值型数据的平均值、最大值、最小值等。在PLINQ中，我们可以使用ParallelEnumerable类的扩展方法Aggregate()自定义一个聚合函数。

ParallelEnumerable. Aggregate()有好几个重载形式，我们来看一个最复杂的：

public static TResult Aggregate<TSource, TAccumulate, TResult>(

this ParallelQuery<TSource> source, //指明此扩展方法适用的数据类型

TAccumulate seed, //聚合变量的初始值

//用于更新聚合变量的函数，此函数将对每个数据分区中的每个数据项调用一次

Func<TAccumulate, TSource, TAccumulate> updateAccumulatorFunc,

//用于更新聚合变量的函数，此函数将对每个数据分区调用一次

Func<TAccumulate, TAccumulate, TAccumulate> combineAccumulatorsFunc,

//用于获取最终结果的函数，在所有工作任务完成时调用

Func<TAccumulate, TResult> resultSelector

);

这个函数声明拥有5个参数，看上去有些吓人，但只要耐下心来分析一下，还是可以理解的。

首先，第一个参数的this关键字表明可以对任何一个ParallelQuery<TSource>类型的变量调用Aggregate()方法，请注意ParallelEnumerable. AsParallel< TSource >()方法的声明：

ParallelQuery<TSource> AsParallel<TSource>(

this IEnumerable<TSource> source);

这意味着任何一个实现了IEnumerable<TSource>接口的对象都可以很方便地转换为ParallelQuery<TSource>类型的对象。所以，我们可以使用以下公式来调用自定义聚合函数：

实现了IEnumerable<TSource>接口的对象.AsParall<TSource>().Aggregate< U,T,V>(…);

另外，请牢记所有聚合函数返回单一值，因此，会有一个值在Aggregate()函数的剩余几个参数间“传递”，这个值不妨称之为“聚合变量”。聚合变量的类型由Aggregate()函数的类型参数 TAccumulate 指定。

Aggregate()函数的第2个参数Seed给聚合变量指定一个初始值。

Aggregate()函数的后面几个参数都是处理并修改聚合变量的。这里有一个背景知识：您必须知道PLINQ是如何执行查询的。

在19.3.3小节介绍Parallel.For和Parallel.ForEach时，曾介绍过数据“分区”的概念。不妨重述如下：

当有一批数据需要处理时，TPL会将这些数据按照内置的分区算法（或者你可以自定义一个分区算法）将数据划分为多个不相交的子集，然后，从线程池中选择线程并行地处理这些数据子集，每个线程只负责处理一个数据子集。

回到针对“自定义聚合函数”的讨论中来，在这里，TPL会将指定的数据处理函数应用于每个数据子集中的每个元素，然后，再把每个数据子集的处理结果（由“聚合变量”所保存）组合为最终的处理结果。

现在我们可以讨论Aggregate()函数的剩余几个参数的含义了。

Aggregate()函数的第3个参数updateAccumulatorFunc用于引用一个数据处理函数，针对每个数据分区中的每个数据项，此函数都会调用一次。请注意这个被多次调用的函数接收两个参数，一个是聚合变量，另一个则是数据分区中的每个数据项，函数返回值将作为聚合变量的“新值”。另外，要注意对于每个数据分区都关联着一个不同的聚合变量，而对于每个数据分区而言，是以“串行”方式对每个数据项调用数据处理函数的，因此，在数据处理函数内部不需要给聚合变量加锁就可以安全地访问它。

当所有数据分区的数据处理工作完成以后，每个数据分区会产生一个结果，此结果由本分区关联的“聚合变量”保存，由此得到了另一个数据集合：

{ 分区1的处理结果，分区2的处理结果，……，分区n的处理结果 }

Aggregate()函数的第4个参数combineAccumulatorsFunc引用另一个数据处理函数对此“数据集合”进行处理。此数据处理函数的第一个参数也是“聚合变量”，第二个参数代表上述数据集合中的每个数据项，此数据处理函数的返回值将成为“聚合变量”的新值。

现在开始介绍Aggregate()函数的最后一个参数resultSelector，同样地，此参数也引用一个数据处理函数，这个函数只有一个参数，其值就是前面两个数据处理函数被执行之后所得到的“聚合变量”的最终值。resultSelector引用的函数可以对这个“聚合变量”进行最后的“加工”，得到整个Aggregate()函数的最终处理结果。

相信上述文字可能会让读者“头大”了，通过一个实例可能更好理解。我们在第19.3.2节中介绍过使用TPL计算数据的总体方差，为方便起见，这里将求方差的公式重新列出：