Apache Hadoop
Apache Hadoop
猫君之上
一起学习大数据开发,共同进步
展开
-
Apache Hadoop MapReduce Mapper类小解
1.MapperTask如果不考虑shuffle阶段的话,mapreduce程序主要分为两个大的模块,即Mapper模块和Reduce模块,而其中Mapper模块对应的是一个个maptask,而每一个MapperTask任务,对应于每一个逻辑切片(split)。因此了解Mapper运行流程很重要。2.Mapper类 简介我们要进行mapreduce编程那么就要自定义实现Mapper和Red...原创 2019-03-13 21:39:25 · 2248 阅读 · 0 评论 -
Hadoop Mapreduce编程之Reduce端join实现
1.数据准备movies.dat 数据格式: // movieid::moviename::movietyperatings.dat 数据格式: // userid::movieid::rating::timestamp2.Mapper端开发1)定义必要的变量private String filename="";IntWritable mk=new IntWrita...原创 2019-04-29 15:41:05 · 174 阅读 · 0 评论 -
Hadoop Common 之序列化机制小解
1.Java Serializable序列化该序列化通过ObjectInputStream的readObject实现序列化,ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强,但是因为存储过多的信息,但是传输效率比较低,所以hadoop弃用它。(序列化信息包括这个对象的类,类签名,类的所有静态,费静态成员的值,以及他们父类都要被写入)p...原创 2019-04-29 15:28:33 · 248 阅读 · 0 评论 -
Hadoop Configuration类简要小解
Hadoop-Common设计之Configuration1.Configuration设计1)常规属性boolean quietMode=true; // 是否静默加载---默认为true,即不打印日志信息,方便开发人员调试ArrayList<Object> resources;// 保存了通过addResource添加的Configuration对象资源,可传递输入流对象...原创 2019-04-19 21:53:09 · 628 阅读 · 1 评论 -
NameNode内存元数据和磁盘元数据以及SecondaryNameNode元数据比较
原创 2019-04-26 21:38:11 · 701 阅读 · 0 评论 -
HDFS读流程图解
原创 2019-04-26 21:06:32 · 131 阅读 · 0 评论 -
HDFS 写流程图解
原创 2019-04-26 20:35:56 · 132 阅读 · 0 评论 -
Apache Hadoop HA集群环境搭建
NameNode 做了HA,ResourceManager也做了HA1.HA集群节点概览电脑配置不够,所以NameNode所在节点上装了DataNode,实际开发搭建的话,NameNode所在节点上不要放DataNode注意:此处不说zookeeper的部分,上篇文章 https://blog.csdn.net/qq_33713328/article/details/88854991...原创 2019-03-27 22:35:11 · 217 阅读 · 0 评论 -
Apache Hadoop MapReduce WordCount案例编程入门
一.MapReduce 简介MapReduce作为Hadoop的三大组件(功能上分)之一,主要为提供大数据平台的分布式计算,虽然比较臃肿,只适合处理离线处理,但是对于理解spark等框架的原理架构会有很大帮助。二.WordCount案例编写为了测试方便,因此直接在windows10本地测试本案例1.准备阶段1)数据准备wordCountdemo.rar 解压到某个文夹下,例如本...原创 2019-03-13 20:38:17 · 413 阅读 · 0 评论 -
Apache Hadoop 使用Java API操作HDFS之代码实现文件夹遍历文件上传下载
先放maven依赖POM.xml配置:&amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt;&amp;lt;project xmlns=&quot;http://maven.apache.org/POM/4.0.0&quot; xmlns:xsi=&原创 2019-03-07 20:39:20 · 1234 阅读 · 0 评论 -
Apache Hadoop Mapreduce作业执行前篇之任务执行前准备(上)
一.创建Job作业过程1.获取Job作业对象方式一:Configuration conf = new Configuration();Job job=Job.getInstance(conf);public static Job getInstance(Configuration conf) throws IOException { JobConf jobConf =...原创 2019-03-15 14:03:44 · 554 阅读 · 2 评论 -
Apache Hadoop 使用Java API操作HDFS之获取FileSystem对象
maven依赖:<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <ve...原创 2019-03-07 19:12:21 · 1526 阅读 · 0 评论 -
Apache Hadoop 通过Shell操作HDFS
如何操作HDFS?Apache Hadoop HDFS提供了两种方式:① shell操作hdfs② Java等语言的API支持使用shell操作hdfs两个重要命令:hadoop 命令格式:hadoop fs [选项] [参数]hdfs 命令格式:hdfs dfs [选项] [参数]常使用命令: hdfs dfsadmin ...原创 2019-03-07 16:54:14 · 169 阅读 · 0 评论 -
Apache Hadoop 初识HDFS
Apache Hadoop HDFS`一.Apache Hadoop 简介Hadoop的起源要从Google三篇论文说起[① gfs ② MapReduce ③ Bigtable], 当时hadoop的开发者Dout Cutting 正在Lucene的子项目Nortch项目中需要对大量网页数据进行检索提取处理,并提取有用的数据,在看到此三篇论文后相继开发出了HDFS,MapReduce,在加...原创 2019-03-06 20:59:40 · 791 阅读 · 0 评论 -
Apache Hadoop MapReduce Reducer类小解
1.ReduceTask同mapper阶段类似,reduce阶段处理一个个reducetask,只不过mapper阶段mapper的map处理的是每一个切片的按行读取的数据。而reducetask的reduce处理的是每一个分区中每组数据的聚合汇总。2.Reducer类同样执行一个reducetask会调用一次run方法,而run方法则会调用setup,reduce和cleanup方法。其中...原创 2019-03-13 21:59:43 · 583 阅读 · 0 评论 -
Hadoop Mapreduce编程 MapJoin实现
1.Mapper端设计package com.mycat.mapd_movie_mapjoin;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text...原创 2019-04-30 09:10:00 · 275 阅读 · 0 评论