hadoop
看我几分像从前
让结局不留遗憾,让过程更加完美。
展开
-
MapReduce的简单入门级代码
需求:统计以下ip出现的次数 IP 应用 网站192.168.0.1 QQ com.baidu.com192.168.0.4 QQ com.baidu.com192.168.0.2 QQ com.baidu.com192.168.0.3 QQ com.baidu.com19...原创 2018-10-18 13:28:12 · 357 阅读 · 0 评论 -
MapReduce中的数据倾斜
产生原因:***在MapperReduce做计算的时候会产生数据的侵写,因为不合理的key,导致了数据的分布不均匀。**解决方案**选择合适的key作为统计依据,使得数据能够在分区中均匀分布。一般需要程序员对分析的数据有一定的预判。1. 开启map端的压缩可以减少reduce shuffle 过程中的网络带宽;弊端:在计算的过程中需要消耗额外的CPU进行数据的压缩和解压缩。con...原创 2018-10-18 22:12:47 · 375 阅读 · 0 评论 -
Hadoop-部分测试API
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.junit.After;import org.junit.Before;import org.junit.Test;import java.io...原创 2018-10-16 23:01:41 · 151 阅读 · 0 评论 -
HBase--部分API
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.protobuf.generated.HBaseProtos;import org.apache...原创 2018-10-21 21:51:36 · 124 阅读 · 0 评论