2015年09月_爱哭的猫ff

11月 10月 09月 08月 03月

原创最小化数值误差

下面有一段程序是计算从0.01到1.0的和；package testsum;public class TestSum { public static void main(String [] args) { float sum = 0; for(float i = 0.01f;i <= 1.0f; i

2015-09-06 18:00:42 1470

原创自然链接

例如，我们需要在属性ID上做关系R和关系S的自然连接。在Map阶段对于每一条R和S中的记录r，我们把它的ID的值作为键，其余属性的值以及R(S中的记录为Ｓ的名称)的名称作为值输出出去。在Reduce阶段我们则将统一键中所有的值，根据他们的来源(RR和S)分为两组做笛卡尔乘积然后将得到的结果输出出去。例如以上面的关系R和关系S为例。关系R中ID为1的记录会以键值对(1,(rel

2015-09-02 18:25:57 579

转载 Reducer类阅读

Reducer类中主要有setup,run,reduce,cleanup这几个函数。/** * Called once at the start of the task. */ protected void setup(Context context ) throws IOException, InterruptedExceptio

2015-09-01 20:53:38 361

转载如何确定map以及reduce的个数

原文链接：http://www.aboutyun.com/thread-6945-1-1.html一般情况下，在输入源是文件的时候，一个task的map数量由splitSize来决定的，那么splitSize是由以下几个来决定的goalSize = totalSize / mapred.map.tasksinSize = max {mapred.min.split.size, minS

2015-09-01 19:36:27 660

原创 mapreduce设置分区partition

在执行MR程序时我们可能想要将不同的数据放到不同的文件中。比如说想要将相同省份的信息放到一个文件中，不同省份的信息放在不同的文件中。这个时候如果有多个reduce的话就可以将相同的省份放到同一个reduce中，这样就可以将相同的省份放到同一个文件中。partition是在map阶段完成后执行的。将分好区的数据传输到reduce端。mapreduce中默认的分区是HashPartition。

2015-09-01 17:36:43 2532