关闭
当前搜索:

hadoop集群安装 7节点;HA

教程使用版本: hadoop-2.8.1.tar.gz zookeeper-3.4.10.tar.gz Linux: Centos 7 x64 (CentOS-7-x86_64-DVD-1708) 前期准备:集群规划: 主机名 IP 安装的软件 运行的进程 node1 192.168.66.3 jdk、hadoop NameNode、DFSZKF...
阅读(148) 评论(1)

MapReduce 另一种写法

public class Runner extends Configured implements Tool { @Override public int run(String[] args) throws Exception { return 0; } public static void main(String[] args) throws Exce...
阅读(80) 评论(0)

MapReduce 自定义outputFormat

写一个类继承 FileOutputFormat 泛型为最终输出的数据类型public class MyFileOutputFormat extends FileOutputFormat { 重写getRecordWriter(TaskAttemptContext context)方法maptask或者reducetask在最终输出时,先调用OutputForm...
阅读(54) 评论(0)

MapReduce 分组GroupingComparator

public class GroupingComparator extends WritableComparator { //传入作为key的bean的class类型,以及制定需要让框架做反射获取实例对象 protected ItemidGroupingComparator() { super(OrderBean.class, true); } @Ove...
阅读(57) 评论(0)

MapReduce 缓存文件

/** * Called once at the beginning of the task. */ protected void setup(Context context ) throws IOException,InterruptedException { BufferedReader bufferedReader = new BufferedReader(new Fi...
阅读(57) 评论(0)

MapReduce MapTask任务数量,切片大小笔记

MapReduce 运行流程概括MapTask任务数量的决定因素每一个split分配一个mapTask并行实例处理 切片实现 由FileInputFormat实现类的getSplits()方法实现切片 默认切片大小就是Block块大小(默认块大小128M) 在FileInputFormat中,计算切片大小的逻辑代码为: Math.max(minSize, Math.min(maxSize, bloc...
阅读(143) 评论(0)

HDFS,数据块,NameNode&DataNode概念及一些原理

分布式文件系统 ?管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed fileSystem)HDFS ?HDFS 即 Hadoop Distributed FileSystem(Hadoop分布式文件系统)超大文件:上百M,GB,T的文件 流式数据访问:一次写入,多次读取是最高效的访问模式 不适合需要低时间延迟的数据访问:HDFS为高数据吞吐量应用优化,可能会以时间为代价...
阅读(163) 评论(0)

Hadoop 客户端 CRUD

package cn.itning.testimport org.apache.commons.io.IOUtils import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.FileSystem import org.apache.hadoop.fs.Path import org.junit.Before im...
阅读(112) 评论(0)

Mapreduce中的分区Partitioner

import java.util.HashMap;import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner;/** * K2 V2 对应的是map输出kv的类型 * @author * */ public class ProvincePartitioner extends Partit...
阅读(92) 评论(0)

Hadoop客户端 mapreducer

package cn.itning.job.wordcountimport org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.Path import org.apache.hadoop.io.LongWritable import org.apache.hadoop.io.Text import org.apache.h...
阅读(106) 评论(0)
    个人资料
    • 访问:23823次
    • 积分:1205
    • 等级:
    • 排名:千里之外
    • 原创:103篇
    • 转载:1篇
    • 译文:0篇
    • 评论:3条
    个人介绍
    文章分类
    最新评论