声明:许多小伙伴私信我,需要trackinfo_20130721.data,可以通过百度云 链接:https://pan.baidu.com/s/1aVpU3k3mddyaIkmXPmwnrg 提取码:nilv 来获取,或者可以从我的csdn资源中下载。
ETL
描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
有时候面对大量的数据,我们不方便进行计算,这个时候就需要进行相应的维度分析,解析出你需要的字段,去除一些你不需要的字段,然后进行分析
package project.mrv2;
import com.imooc.bigdata.hadoop.hdfs.mr.project.utils.ContentUtils;
import com.imooc.bigdata.hadoop.hdfs.mr.project.utils.LogParser;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.ha