hadoop
16:27
这个作者很懒,什么都没留下…
展开
-
mapreduce规约
图解 规约主要是为了减少网络传输阶段的负担 准备工作 准备wordcount.txt,最好数据能重复多一点,能看到其中的效果。 规约前 规约后,reduce input明显减少 java代码 WordCountMapper.java import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.原创 2021-04-18 21:31:27 · 181 阅读 · 0 评论 -
mapreduce计数器
计算器主要是在map和reduce阶段定义 map Counter counter = context.getCounter("MR_Count", "MapReduceCounter"); //第一个参数是定义名字,第二个也是定义map出现的次数 counter.increment(1L); //1L就是每运行一次map就加1 reduce //自定义计算器:使用枚举 public static enum MyCount{ REDUCE_INPUT_KEY_RECORDS, REDU原创 2021-04-18 15:26:50 · 191 阅读 · 0 评论 -
排序
图解 准备工作 1、准备好一个sort.txt文件 代码段 SortMapper.java import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class SortMapper extends Mapper<LongWritable, T原创 2021-04-17 20:31:26 · 55 阅读 · 0 评论 -
mapreduces分区
图解 worldcount.txt 300M的单词文件分成3个块,map类把单词分开固定为1,redueceTask把大于等于5个单词的放一起,其他的放一起,最后算到各自的分区文件中。 Java代码 编写PartitionerOwn类继承Partitioner进行分区,大于等于5的返回值为0,其他的返回值为1,如果有很多个分区可以在加返回值2、3、4。详情查看Partitioner和HashPartitioner,在idea ctrl+n搜索他们两个查看源代码。 具体PartitionerOwn代码 rg原创 2021-04-16 21:04:46 · 92 阅读 · 0 评论 -
wordcount
准备工作 1、在liunx系统上准备wordcount.txt vi wordcount.txt 准备点数据进行计算 2、把wordcount.txt上传到hdfs系统上面,hdfs dfs -put /home/hadoop/wordcount /wordcount,路径自己对应好! 3、编写java代码进行计算 创建一个map类WordCountMapper import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.原创 2021-04-16 17:08:49 · 208 阅读 · 0 评论