![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据算法
acm160920007
这个作者很懒,什么都没留下…
展开
-
数据算法(二次排序):对温度数据排序
二次排序针对归约阶段对与某个键关联的值排序 MapReduce 框架会自动对映射器生成的键完成排序,在启动归约器之前,映射器生成的中间键-值对必然时按键有序的,值不是有序的。 如下例子:考虑一个可惜实验得到的温度数据。包括year,month,day 和当天温度temperature 2012,01,01,5 2000,12,04,10 2000,11,01,20 200...原创 2018-08-03 16:31:47 · 1577 阅读 · 0 评论 -
数据算法(TopN) :MapReduce+Spark(java)实现(键唯一情况)
MapReduce实现 Driver类 package cn.weida.MapReduce.ToN; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io...原创 2018-08-09 11:19:09 · 809 阅读 · 0 评论 -
数据算法(TopN) :Spark+Spark(takeOrdered)实现(非键唯一情况)
package cn.weida.Spark.TopNNonUnique; import java.util.Collections; import java.util.Iterator; import java.util.List; import java.util.Map; import java.util.SortedMap; import java.util.TreeMap; imp...原创 2018-08-09 13:35:18 · 792 阅读 · 0 评论 -
数据算法 (MapReduce步骤)
//1.设置输入文件Path Path inputPath = new Path(args[0]); //2.设置输入文件 FileInputFormat.setInputPaths(job, inputPath); //3.设置输入文件格式 job.setInputFormatClass(SequenceFileInputFormat.class); //4.设置map job.setMappe...原创 2018-08-10 14:35:23 · 275 阅读 · 0 评论 -
数据算法 (二次排序):Spark+Scala语言实现
之前用到的是MapReduce 解决二次排序问题,另一种实现方式是利用Spark实现,就简单多了 我们考虑如下数据: y,2,5 x,1,3 y,1,7 y,1,1 y,3,1 x,3,6 z,1,4 z,2,8 z,3,7 z,4,0 p,2,6 p,4,7 p,1,9 p,6,0 p,7,3 我们希望最终结果是这样 : 首先按字母排序,然后按第一个数字,最后按第三个数字排序 imp...原创 2018-08-07 09:13:27 · 347 阅读 · 0 评论