hadoop
csdnmrliu
这个作者很懒,什么都没留下…
展开
-
Hadoop、Spark计数器(累加器)使用
1. MapReduce中自定义计数器(枚举方式)1.1 首先定义并使用计数器//第一种 组名+计数器名context.getCounter(groupName, counterName).increment(1);//参数类型为String //第二种 Enumcontext.getCounter(counterName).increment(1);//参数类型为Enum//...原创 2018-09-25 18:18:29 · 4406 阅读 · 1 评论 -
Hadoop、Spark(Java、scala)实现分组、排序
1. MapReduce实现分组、排序1.1分组//在MapReduce 主类设置自定义分组Classjob.setGroupingComparatorClass((Class<? extends RawComparator> cls);//实例job.setGroupingComparatorClass(S1apEnbidGroupingComparator....原创 2018-09-20 11:27:19 · 775 阅读 · 2 评论 -
Hadoop、Spark处理小文件
注:hadoop基于2.7.5;spark基于2.3.1-hadoop2.7-scala2.11.81.hadoop处理小文件(提升mapreduce性能,没有解决namenode内存问题) 2.spark处理小文件原创 2018-09-27 09:14:38 · 834 阅读 · 0 评论 -
Hadoop2.7.5环境搭建
已编译好的hadoop2.7.5(支持snappy)的安装包:服务器环境为腾讯云-Centos6.8,安装hadoop单机模式,root用户下安装注:hostname千万不要包含下划线 单机配置localhost1. 配置主机名腾讯云不建议修改hostname,因腾讯云服务器默认hostname带有下划线则使用localhost。 2. 配置主机名和ip映射关系 hosts...原创 2018-10-09 11:21:02 · 1484 阅读 · 0 评论 -
MapReduce关于key的定义、hashCode()、equals(Object obj)、compareTo(CustomCombineKey other)
1. mapreduce中自定义mapout、reduceinput的keykey需实现WritableComparable<KEY> 接口1.1 重写下面的三个方法1.2 重写hashCode()和equals(Object obj)2. mapreduce何时调用hashCode()、equals(Object obj)、compareTo(CustomComb...原创 2018-10-23 15:27:12 · 705 阅读 · 0 评论 -
mapreduce读取parquet文件
1.添加parquet1.8.1 maven依赖<parquet.version>1.8.1</parquet.version>JDateTime 依赖 <jodd.version>3.3.8</jodd.version><dependency> <groupId>org.apache.parquet<...原创 2019-01-16 14:24:07 · 4399 阅读 · 0 评论