- 博客(22)
- 资源 (10)
- 收藏
- 关注
转载 hadoop常见错误及解决办法!
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits.
2013-07-31 13:06:18 3637
原创 hadoop集群问题跟踪
1、no room for reduce task错误日志:2013-07-30 12:40:23,186 WARN org.apache.hadoop.mapred.JobInProgress: No room for reduce task. Node tracker_zw-hadoop-slave-80-125.:zw_80_125/127.0.0.1:15436 has 49630
2013-07-31 11:08:53 1528
转载 深入理解Hadoop集群和网络
原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群
2013-07-30 10:46:49 955
转载 hadoop如何分发本地的jar文件
看了半天的hadoop源码,终于明白了hadoop是如何把本地的jar文件分发到每个TaskTracker上面了。 一般情况下,我们会使用下面的命令来运行一个hadoop任务:hadoop jar abc.jar arg0 arg1 ...这个命令实际上是转化成下面的命令来运行的java org.apache.hadoop.util.RunJar abc.j
2013-07-25 14:36:34 980
转载 sqoop的安装、配置及使用简介
Sqoop的安装和配置下载sqoop和hadoop:wget http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u1.tar.gz wget http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u1.tar.gz解压
2013-07-24 15:52:06 1743
转载 深入剖析HADOOP程序日志
深入剖析HADOOP程序日志 前提本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。 正文本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动Hadoo
2013-07-24 14:30:49 966
转载 Sqoop客户端安装以及使用小结
SQOOP是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import
2013-07-24 14:25:50 1772
转载 利用SQOOP将数据从数据库导入到HDFS
利用SQOOP将数据从数据库导入到HDFS基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123
2013-07-24 13:47:14 1248
原创 hadoop集群使用规范
一、测试环境使用规范原则上所有提交到正式集群的新作业必须先经过测试环境测试,测试通过之后才能提交到正式环境。 测试环境包括:cdh3u1环境:和正式环境具有相同的hadoop版本,参数配置也基本一致。cdh4u2环境:提供了更高版本的hadoop,该环境安装了NameNode和JobTracker的HA,安装了比hive更快的即时查询impala。 说明:(1)、两
2013-07-22 15:11:49 2451
转载 如何在shell中操作(连接)mysql数据库?
我知道的有如下两种方式可以在shell中访问操作mysql数据库1. mysql -uusername -ppasswd -e "command;command"[root@localhost ~]# mysql -uroot -p123456 -e "select user,host from mysql.user"+------+-----------------------+
2013-07-16 15:43:03 14051
转载 Azkaban成功搭建环境的过程
1、先将下载下来2、将压缩包上传到hadoop的NameNode上3、用tar xvf azkaban-0.10.tar.gz解压4、设置HADOOP_HOME环境变量:export HADOOP_HOME=:$HADOOP_HOME:/home/hadoop/azkaban-0.10/test/jobs 为azkaban解压到的绝对路径5、进入到azkaba
2013-07-15 15:41:16 1865
转载 Azkaban的快速搭建
一、独立部署通过以下命令来启动Azkaban:注: 这个部分为绝对路径然后即可用浏览器访问http://localhost:8081 (若将azkaban部署到服务器上,则 localhost为服务器的IP地址)二、在Tomcat中部署在解压缩后的dist目录下有一个预置的war文件。这个文件可以使用标准方法在Tomcat或任何servlet容器
2013-07-15 15:37:48 1770
转载 Hprof使用及在Hadoop中MR任务使用
J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命令行参数来动态加载,并成为 JVM进程的一部分。若要在java进程启动的时候使用HPROF,用户可以通过各种命令行参数类型来使用HPROF对java进程的heap或者 (和)cpu进行profiling的功
2013-07-15 15:28:55 1606
转载 Hadoop公平调度器指南
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。
2013-07-15 12:56:22 1194
原创 Hadoop集群下线节点
Hadoop提供了Decommission的特性,可以按照以下步骤来操作:1. 在hadoop的conf目录下生成一个excludes的文件,写上需要remove的节点ip 一个节点一行,注意要写ip,不能写Hostname,如: 10.10.70.732. 在hdfs-site.xml中增加配置: dfs.hosts.exc
2013-07-15 12:44:37 4039 1
原创 impala1.0.1安装
一、节点部署情况1、cdh4.2.1 HA安装节点:iphosts进程备注10.32.71.18master1.jnhadoop.comNameNode JournalNode ZooKeeper HdfsZkfc默认NN启动为active10.32.71.19master2.j
2013-07-15 10:32:29 1874
转载 Hadoop简介
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应
2013-07-14 21:19:46 1810
转载 深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量guibin.beijing@gmail.com很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造
2013-07-09 12:54:59 973
转载 linux系统负载高怎么办
1:load Average1.1:什么是Load?什么是Load Average? Load 就是对计算机干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing) 简单的说是进程队列的长度。Load Average 就是一段时间(1分
2013-07-04 10:17:29 4462 1
转载 Hadoop MapReduce容错性分析
本文讲述Hadoop-0.21.0 以及以上版本中MapReduce的容错机制。包括JobTracker,TaskTracker,Job,Task,Record等级别的容错机制。1. JobTracker 暂无容错机制,挂掉之后,需要人工介入,重启。 用户可以通过配置一些参数,以便JobTracker重启后,让所有作业恢复运行。用户配置若干参数后,Job
2013-07-01 15:13:53 1031
转载 hadoop fsck 命令详解
hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录
2013-07-01 11:12:10 1120
转载 hadoop的dfs.replication
首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1
2013-07-01 10:34:13 1792
HTTP协议详解 学习servlet的必备资料
2009-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人