- 博客(7)
- 收藏
- 关注
原创 List和数组的转换
package dataproject;import java.util.Arrays;import java.util.List;public class TestArray { public static void main(String[] args) { //String[]数组转String类型的集合,当需要使用int,double等集合的时候,需要...
2018-08-20 20:09:04 2968
原创 hadoop11--mapreduce全局计数器
全局计数器计数器是用于记录job运行状态和进度的 类似于job运行的一个报告。 统计job运行过程中的各个参数,包括job的输入数据量 输出数据量,map输入的数据条数,reduce分组数等等。其作用范围是全局的,假设运行3个maptask任务, 计数器统计的是3个maptask任务的总和的内置计数器Hadoop其实内置了很多计数器。我们先看下运行一个mr程序出来的报告。...
2018-08-14 20:01:51 619 2
原创 hadoop10--mapreduce组件之Combiner
CombinerCombiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件,它的作用是在 maptask 之后给 maptask 的结果进行局部汇总,以减轻 reducetask 的计算负载,减少网络传输。使用Combiner 和 Reducer 一样,编写一个类,然后继承 Reducer,reduce 方法中写具体的 Combiner逻辑...
2018-08-14 19:38:38 278
原创 hadoop08--maptask、reducetask的并行度&数据倾斜问题
maptask的并行度1.maptask:运行map部分的任务,我们就叫做maptask。2.并行度:同时运行的maptask的任务的个数,一个maptask肯定只运行在一台节点上。3.例如文件大小是500M: 存储为三块: blk_1:0-128 blk_2:128-256 blk_3:256-384 blk_4:384-500启动一个maptask合适...
2018-08-14 16:10:50 849
原创 hadoop07--词频统计、级联删除、hdfs的文件读写、mapreduce的wordCount
hadoop中有自带的wordcount/home/hadoop/apps/hadoop-2.7.6/share/hadoop/mapreduce一:统计6个文件的单词和单词总数import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;impor...
2018-08-14 14:52:36 660
原创 hadoop06--HDFS四大核心和两大机制
hdfs的四大核心和两大机制1.心跳机制:集群主从模式,主节点namenode,从节点datanode,datanode和namenode是需要通信的,通信通过心跳的方式进行通信的。datanode向namenode定期发送心跳报告,报告自己的存活状态,和自己存储的块信息。如果一个datanode宕机了,namenode怎么判定datanode一定宕机了?10次心跳报告收不到,如果...
2018-08-14 11:42:52 1568
原创 hadoop05-HDFS的api操作
环境配置eclipse配置hdfs的环境hadoop的插件hadoop-eclipse-plugin,放在eclipse的安装目录的plugins下配置本地hadoop的环境解压hadoop安装包配置windows下hadoop的环境变量 新建:HADOOP_HOME=hadoop的解压路径,我的是:HADOOP_HOME=C:\soft\hadoop-2.7.6...
2018-08-14 11:02:45 228
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人