
Hadoop
我们始终是路人
这个作者很懒,什么都没留下…
展开
-
Hadoop客户端 mapreducer
package cn.itning.job.wordcountimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.io.LongWritableimport org.apache.hadoop.io.Textimport org.apache.h原创 2017-10-26 15:59:20 · 343 阅读 · 0 评论 -
hadoop集群安装 7节点;HA
教程使用版本: hadoop-2.8.1.tar.gz zookeeper-3.4.10.tar.gz Linux: Centos 7 x64 (CentOS-7-x86_64-DVD-1708)前期准备:集群规划: 主机名 IP 安装的软件 运行的进程 node1 192.168.66.3 jdk、hadoop...原创 2017-11-01 17:50:27 · 723 阅读 · 0 评论 -
MapReduce 另一种写法
public class Runner extends Configured implements Tool { @Override public int run(String[] args) throws Exception { return 0; } public static void main(String[] args) throws Exce原创 2017-10-31 18:09:30 · 328 阅读 · 0 评论 -
MapReduce 自定义outputFormat
写一个类继承 FileOutputFormat 泛型为最终输出的数据类型public class MyFileOutputFormat extends FileOutputFormat<Text, NullWritable> {重写getRecordWriter(TaskAttemptContext context)方法maptask或者reducetask在最终输出时,先调用OutputForm原创 2017-10-31 16:25:24 · 380 阅读 · 0 评论 -
MapReduce 分组GroupingComparator
public class GroupingComparator extends WritableComparator { //传入作为key的bean的class类型,以及制定需要让框架做反射获取实例对象 protected ItemidGroupingComparator() { super(OrderBean.class, true); } @Ove原创 2017-10-31 14:59:45 · 490 阅读 · 0 评论 -
MapReduce 缓存文件
/** * Called once at the beginning of the task. */ protected void setup(Context context ) throws IOException,InterruptedException { BufferedReader bufferedReader = new BufferedReader(new Fi原创 2017-10-31 14:38:31 · 1045 阅读 · 1 评论 -
MapReduce MapTask任务数量,切片大小笔记
MapReduce 运行流程概括MapTask任务数量的决定因素每一个split分配一个mapTask并行实例处理切片实现由FileInputFormat实现类的getSplits()方法实现切片默认切片大小就是Block块大小(默认块大小128M)在FileInputFormat中,计算切片大小的逻辑代码为:Math.max(minSize, Math.min(maxSize, bloc原创 2017-10-30 19:37:37 · 2665 阅读 · 0 评论 -
HDFS,数据块,NameNode&DataNode概念及一些原理
分布式文件系统 ?管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed fileSystem)HDFS ?HDFS 即 Hadoop Distributed FileSystem(Hadoop分布式文件系统)超大文件:上百M,GB,T的文件流式数据访问:一次写入,多次读取是最高效的访问模式不适合需要低时间延迟的数据访问:HDFS为高数据吞吐量应用优化,可能会以时间为代价原创 2017-10-29 20:02:31 · 4539 阅读 · 0 评论 -
Hadoop 客户端 CRUD
package cn.itning.testimport org.apache.commons.io.IOUtilsimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.FileSystemimport org.apache.hadoop.fs.Pathimport org.junit.Beforeim原创 2017-10-27 11:31:45 · 345 阅读 · 0 评论 -
Mapreduce中的分区Partitioner
import java.util.HashMap;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;/** * K2 V2 对应的是map输出kv的类型 * @author * */public class ProvincePartitioner extends Partit原创 2017-10-26 16:08:30 · 435 阅读 · 0 评论