- 博客(5)
- 资源 (6)
- 收藏
- 关注
原创 最小化数值误差
下面有一段程序是计算从0.01到1.0的和;package testsum;public class TestSum { public static void main(String [] args) { float sum = 0; for(float i = 0.01f;i <= 1.0f; i
2015-09-06 18:00:42 1470
原创 自然链接
例如,我们需要在属性ID上做关系R和关系S的自然连接。在Map阶段对于每一条R和S中的记录r,我们把它的ID的值作为键,其余属性的值以及R(S中的记录为S的名称)的名称作为值输出出去。在Reduce阶段我们则将统一键中所有的值,根据他们的来源(RR和S)分为两组做笛卡尔乘积然后将得到的结果输出出去。 例如以上面的关系R和关系S为例。关系R中ID为1的记录会以键值对(1,(rel
2015-09-02 18:25:57 579
转载 Reducer类阅读
Reducer类中主要有setup,run,reduce,cleanup这几个函数。/** * Called once at the start of the task. */ protected void setup(Context context ) throws IOException, InterruptedExceptio
2015-09-01 20:53:38 361
转载 如何确定map以及reduce的个数
原文链接:http://www.aboutyun.com/thread-6945-1-1.html一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = totalSize / mapred.map.tasksinSize = max {mapred.min.split.size, minS
2015-09-01 19:36:27 660
原创 mapreduce设置分区partition
在执行MR程序时我们可能想要将不同的数据放到不同的文件中。比如说想要将相同省份的信息放到一个文件中,不同省份的信息放在不同的文件中。这个时候如果有多个reduce的话就可以将相同的省份放到同一个reduce中,这样就可以将相同的省份放到同一个文件中。partition是在map阶段完成后执行的。将分好区的数据传输到reduce端。mapreduce中默认的分区是HashPartition。
2015-09-01 17:36:43 2532
digits.zip
2016-03-11
datingTestSet
2016-03-11
datingTestSet2
2016-03-11
datingTestSet.txt
2016-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人