carrialine-CSDN博客

翻译 hbase中regionserver的flush过程

1、regionServer的全局memstore的大小，超过该大小会触发flush到磁盘的操作,默认是堆大小的40%, 而且regionserver级别的flush会阻塞客户端读写 <property> <name>hbase.regionserver.global.memstore.size</name> <val...

2018-05-23 18:34:22 843

翻译 hadoop的比较器WritableComparable

一、WritableComparable是一个接口，它继承了hadoop自己封装的序列化类Writable和java中的Comparable接口。 1、源码如下：public interface WritableComparable <T> extends org.apache.hadoop.io.Writable, java.lang.Comparable<T>pu...

2018-05-10 14:41:38 533

Writable是hadoop自己研发的一套序列化机制。与java（Serializable）的序列化相比，便于在网络中高效传输，去除了很多额外的信息（各种校验信息，继承体系等）一、常用的数据类型对应的Hadoop数据序列类型java类型hadoop Writable类型booleanBooleanWritablebyteByteWritaleint IntWritablelongLongWrit...

2018-05-10 13:00:46 282

翻译将写好的hadoop工程，打成jar包或者war包，在依赖中需要添加

在maven工程pom.xml中需要添加的<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration&

2018-05-10 12:45:23 413

翻译 hadoop在开发工具开控制台上打印不出日志的解决方法

（1）在windows环境上配置HADOOP_HOME环境变量（2）在eclipse上运行程序（3）注意：如果eclipse打印不出日志，在控制台上只显示1.log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). 2.log4j:WARN Please initialize the log...

2018-05-10 12:41:57 1472

翻译 MapReduce进程

mapreduce的三个实例进程在分布式运行是分别担任的任务1、MrAppMaster:负责整个程序的过程调度及状态协调2、MapTask:负责map阶段的整个处理流程3、ReduceTask:负责reduce阶段的整个数据处理流程编程阶段1）mapper阶段 mapper 的输入数据是kv对的形式（kv的类型可以自定义） Mapper中的业务逻辑写在map()方法中 ...

2018-05-10 12:04:02 2129

翻译 MapReduce核心思想

定义：Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。特点：Mapreduce数据源是静态的，每个MapReduce作业的输出结果都会写入磁盘，会产生磁盘IO。1、分布是的运算程序往往需要分成至少2个阶段2、第一阶段的mapreduce并发运行，互不相干3、mapreduce编程中只能包含一个map阶段，一个reduce 阶段。4、如果用户...

2018-05-10 11:50:40 2554

原创 hadoop01

本地运行模式//创建input文件夹mkdir input//将Hadoop自定义的配置文件拷到input文件夹cp etc/hadoop/*.xml input//获得input目录下以dfs开头的文件hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]...

2018-05-07 21:18:14 145

carrialine的博客