数据算法:hadoop/spark大数据处理技巧
文章平均质量分 82
星之空殇
这个作者很懒,什么都没留下…
展开
-
一、二次排序
1、软件版本jdkjdk1.7.0_67hadoophadoop-2.6.0sparkspark-1.4.0-bin-hadoop2.6分别下载上述源码,并进行配置,打开/etc/profile设置环境变量如下:#set java envexport JAVA_HOME=/opt/java/jdk1.7.0_67export JRE_HOME=${JAVA_HOME}/jreexport C原创 2018-01-02 16:19:46 · 1266 阅读 · 0 评论 -
二、TopN问题解决方案
1、使用hadoop的map/reduce解决TopN问题(唯一键)首先使用SequenceFileWriterForTopN函数生成sequence文件,SequenceFileWriterForTopN函数代码如下:package chap03.mapreduce;import java.io.IOException;import java.net.URI;import j原创 2018-01-03 22:11:43 · 1469 阅读 · 0 评论