2018年08月_戴戴0204

原创 List和数组的转换

package dataproject;import java.util.Arrays;import java.util.List;public class TestArray { public static void main(String[] args) { //String[]数组转String类型的集合，当需要使用int，double等集合的时候，需要...

2018-08-20 20:09:04 2968

原创 hadoop11--mapreduce全局计数器

全局计数器计数器是用于记录job运行状态和进度的类似于job运行的一个报告。统计job运行过程中的各个参数，包括job的输入数据量输出数据量，map输入的数据条数，reduce分组数等等。其作用范围是全局的，假设运行3个maptask任务，计数器统计的是3个maptask任务的总和的内置计数器Hadoop其实内置了很多计数器。我们先看下运行一个mr程序出来的报告。...

2018-08-14 20:01:51 619 2

原创 hadoop10--mapreduce组件之Combiner

CombinerCombiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件，它的作用是在 maptask 之后给 maptask 的结果进行局部汇总，以减轻 reducetask 的计算负载，减少网络传输。使用Combiner 和 Reducer 一样，编写一个类，然后继承 Reducer，reduce 方法中写具体的 Combiner逻辑...

2018-08-14 19:38:38 278

原创 hadoop08--maptask、reducetask的并行度&数据倾斜问题

maptask的并行度1.maptask：运行map部分的任务，我们就叫做maptask。2.并行度：同时运行的maptask的任务的个数，一个maptask肯定只运行在一台节点上。3.例如文件大小是500M：存储为三块： blk_1:0-128 blk_2:128-256 blk_3:256-384 blk_4:384-500启动一个maptask合适...

2018-08-14 16:10:50 849

原创 hadoop07--词频统计、级联删除、hdfs的文件读写、mapreduce的wordCount

hadoop中有自带的wordcount/home/hadoop/apps/hadoop-2.7.6/share/hadoop/mapreduce一：统计6个文件的单词和单词总数import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;impor...

2018-08-14 14:52:36 660

原创 hadoop06--HDFS四大核心和两大机制

hdfs的四大核心和两大机制1.心跳机制：集群主从模式，主节点namenode，从节点datanode，datanode和namenode是需要通信的，通信通过心跳的方式进行通信的。datanode向namenode定期发送心跳报告，报告自己的存活状态，和自己存储的块信息。如果一个datanode宕机了，namenode怎么判定datanode一定宕机了？10次心跳报告收不到，如果...

2018-08-14 11:42:52 1568

原创 hadoop05-HDFS的api操作

环境配置eclipse配置hdfs的环境hadoop的插件hadoop-eclipse-plugin，放在eclipse的安装目录的plugins下配置本地hadoop的环境解压hadoop安装包配置windows下hadoop的环境变量新建：HADOOP_HOME=hadoop的解压路径，我的是：HADOOP_HOME=C:\soft\hadoop-2.7.6...

2018-08-14 11:02:45 228

戴戴的博客