hadoop
爪爪的瓜瓜
这个作者很懒,什么都没留下…
展开
-
如何控制hadoop中map和reduce任务的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导转载 2013-11-18 20:44:37 · 1569 阅读 · 0 评论 -
Zookeeper Api(java)入门与应用(转)
如何使用Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是 Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,后面将会详细介绍 Zookeeper 能够解决的一些典型问题,这里先介绍一下,转载 2015-01-12 15:48:48 · 430 阅读 · 0 评论 -
hadoop集群之PID
在hadoop集群上面的每个java进程都会有一个文件记录启动时的PID,这样可以原创 2014-10-28 13:45:16 · 607 阅读 · 0 评论 -
hive上报ERROR:10004错误和order by ,sort by区别
在使用hive写hql时报10004错误,提示列字段名称错误原创 2014-08-28 15:19:41 · 3699 阅读 · 0 评论 -
hadoop集群节点添加硬盘
hadoop的优势就是多磁盘,多存储,分布式计算,所以不可避免的磁盘空间会不足的时候,原创 2014-08-28 17:31:02 · 2088 阅读 · 0 评论 -
Hadoop之压缩
在大数据环境下,数据的存储一个是个问题。如何存储大量的文件和转载 2014-08-15 15:18:55 · 877 阅读 · 0 评论 -
Hadoop异常之could only be replicated to 0 nodes, instead of 1
在Hadoop的环境搭建过程中,常常会遇到类似这样的错误信息提示:“could only be replicated to 0 nodes, instead of 1”,产生这样的错误原因有多种,这里列举出以下四种常用的解决方法以供参考:确保master(namenode) 、slaves(datanode)的防火墙已经关闭确保DFS空间的使用情况Hadoop默认的hadoop.tmp.d转载 2014-08-14 16:01:13 · 517 阅读 · 0 评论 -
hadoop中各种输入输出格式
hive提供了很多压缩格式,比如有原创 2014-08-13 17:13:15 · 1603 阅读 · 0 评论 -
hive报内存不足错误
hive在运行HQL时上报内存不足错误导致contains被kill掉,mapreduce任务失败。导致这个错误是因为mapreduce配置的内存数量太小了。可以在mapred-site.xml中添加set mapreduce.map.memory.mb=1024;原创 2014-08-25 16:07:02 · 5791 阅读 · 0 评论 -
hive中使用is null和is not null问题
在使用HQL时如果有空值喜欢追随SQL99的规范使用IS NULL 和IS NO原创 2014-08-21 15:46:01 · 31026 阅读 · 2 评论 -
把hadoop源码导入到eclipse中遇到的问题
问题:源码环境搭建时发现sun.net.util.ipaddressutil的包没有是怎么回事?这个包在哪里的? 解答:转载 2014-04-04 15:54:27 · 555 阅读 · 0 评论 -
eclipse中的JVM理解
今天写了一段hadoop程序,就是简单的MapReduce,写完以后在eclipse运行时上报:java.lang.OutOfMemoryError: Java heap space内存溢出的错误。总是不明白为什么会溢出。后来询问网友和上网查找资料了解到。原来我们平时开发的eclipse就模仿了一个java运行环境,当点击run运行时就启动了一个java虚拟机用来模拟真实电脑中的虚拟机。原创 2013-11-05 16:53:35 · 540 阅读 · 0 评论 -
Hadoop YARN配置参数剖析(1)—RM与NM相关参数
转载自董的博客本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-configurations-resourcemanager-nodemanager/注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. Resour转载 2015-02-03 16:24:16 · 539 阅读 · 0 评论