hadoop
文章平均质量分 87
purisuit_knowledge
这个作者很懒,什么都没留下…
展开
-
Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。 用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.had转载 2014-09-24 11:00:56 · 606 阅读 · 0 评论 -
CDH离线安装
转载自:http://blog.csdn.net/jdplus/article/details/45920733,自己亲自试验已经安装成功,非常感谢作者!CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用转载 2015-09-10 17:02:47 · 623 阅读 · 0 评论 -
CDH集群nodemanager启动不了
org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl.recoverContainer(ContainerManagerImpl.java:289)原创 2016-01-12 14:35:33 · 3237 阅读 · 0 评论 -
回顾Hadoop二次排序
MapReduce二次排序原理:1.在map的时候会通过InputFormat的getSplits来把数据集分割成splites2.InputFormat会提供RecordReader来读取每一条的Record,读取之后传送给map来接受处理。3.在Map阶段最后会通过Partitioner对Mapper的计算结果进行分区。可以通过job的setPartitionerClass来自定义原创 2016-08-08 16:11:14 · 255 阅读 · 0 评论 -
hadoop fs -count的结果含义
转载自:https://blog.csdn.net/liuxiao723846/article/details/71078658hadoop fs -count的结果含义最近要对hdfs上空间使用和文件结点使用增加报警,当超过一定的限额的时候就要发报警好通知提前准备。[sunwg]$ hadoop fs -count /sunwg 2 1 108 hdfs...转载 2018-08-03 21:09:46 · 624 阅读 · 0 评论 -
Windows下Eclipse提交MR程序到HadoopCluster
https://blog.csdn.net/senvil/article/details/48916165 https://www.cnblogs.com/cssdongl/p/6027116.html原创 2018-08-22 20:52:41 · 197 阅读 · 0 评论 -
Hadoop 归档 和HIVE 如何使用har 归档 文件
Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了,那这个文件就会按照dfs.block.size 的大小进行分块,因为hdfs为每个块的元数据大小大约为150个字节,如果众多小文件的存在(什么是小文件内,就是小于dfs.block.size 大小的文件,这样每个文件就是一个block)占用大量的namenode 堆内存空间,打成har 文件可以大大降低name...原创 2018-10-15 17:37:21 · 2820 阅读 · 0 评论 -
工作中的技巧
1.3 MapReduce版本:hadoop jar app.jar -D mapreduce.job.queuename=root.etl.distcp -D mapreduce.job.priority=HIGH 2、动态调整如果是已经在运行中的任务,可以动态调整任务所属队列及其优先级。 2.1 调整优先级hadoop1.0及以下版本:hadoop job -set...原创 2018-11-13 10:52:07 · 218 阅读 · 0 评论 -
非常清晰的说明---Hadoop之内存问题
一 发生很多Job OOM现象那几天运维发现很多OOM,一直不断在Full GC。我们知道Full GC一旦发生超过几分钟,其他的线程均停止工作,只有垃圾回收线程工作。第一个猜想是运行的Job,也就是我们运行任务内存资源不够用。所以猜想是container所启动的YarnChild的JVM内存大小不够,或者配置小了,导致内存不够用。我们就把内存配大了些。mapreduce.map.me...转载 2019-03-14 11:47:58 · 855 阅读 · 0 评论