自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

  • 博客(22)
  • 资源 (10)
  • 收藏
  • 关注

转载 hadoop常见错误及解决办法!

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。       /etc/security/limits.

2013-07-31 13:06:18 3539

原创 hadoop集群问题跟踪

1、no room for reduce task错误日志:2013-07-30 12:40:23,186 WARN org.apache.hadoop.mapred.JobInProgress: No room for reduce task. Node tracker_zw-hadoop-slave-80-125.:zw_80_125/127.0.0.1:15436 has 49630

2013-07-31 11:08:53 1495

转载 深入理解Hadoop集群和网络

原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群

2013-07-30 10:46:49 948

转载 hadoop如何分发本地的jar文件

看了半天的hadoop源码,终于明白了hadoop是如何把本地的jar文件分发到每个TaskTracker上面了。 一般情况下,我们会使用下面的命令来运行一个hadoop任务:hadoop jar abc.jar arg0 arg1 ...这个命令实际上是转化成下面的命令来运行的java org.apache.hadoop.util.RunJar abc.j

2013-07-25 14:36:34 960

转载 sqoop的安装、配置及使用简介

Sqoop的安装和配置下载sqoop和hadoop:wget http://archive.cloudera.com/cdh/3/sqoop-1.3.0-cdh3u1.tar.gz                                    wget http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u1.tar.gz解压

2013-07-24 15:52:06 1719

转载 深入剖析HADOOP程序日志

深入剖析HADOOP程序日志 前提本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。 正文本文来自于 博客园 逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录,我们可以看到如下文件: 在启动Hadoo

2013-07-24 14:30:49 939

转载 Sqoop客户端安装以及使用小结

SQOOP是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,下面从SQOOP用户手册上摘录一段描述Sqoop is a tool designed to transfer data between Hadoop andrelational databases. You can use Sqoop to import

2013-07-24 14:25:50 1733

转载 利用SQOOP将数据从数据库导入到HDFS

利用SQOOP将数据从数据库导入到HDFS基本使用如下面这个shell脚本:#Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2#使用的用户名ORACLENAME=kkaa#使用的密码ORACLEPASSWORD=kkaa123

2013-07-24 13:47:14 1229

原创 hadoop集群使用规范

一、测试环境使用规范原则上所有提交到正式集群的新作业必须先经过测试环境测试,测试通过之后才能提交到正式环境。 测试环境包括:cdh3u1环境:和正式环境具有相同的hadoop版本,参数配置也基本一致。cdh4u2环境:提供了更高版本的hadoop,该环境安装了NameNode和JobTracker的HA,安装了比hive更快的即时查询impala。 说明:(1)、两

2013-07-22 15:11:49 2375

转载 如何在shell中操作(连接)mysql数据库?

我知道的有如下两种方式可以在shell中访问操作mysql数据库1. mysql -uusername -ppasswd -e "command;command"[root@localhost ~]# mysql -uroot -p123456 -e "select user,host from mysql.user"+------+-----------------------+

2013-07-16 15:43:03 13977

转载 Azkaban成功搭建环境的过程

1、先将下载下来2、将压缩包上传到hadoop的NameNode上3、用tar xvf azkaban-0.10.tar.gz解压4、设置HADOOP_HOME环境变量:export HADOOP_HOME=:$HADOOP_HOME:/home/hadoop/azkaban-0.10/test/jobs  为azkaban解压到的绝对路径5、进入到azkaba

2013-07-15 15:41:16 1847

转载 Azkaban的快速搭建

一、独立部署通过以下命令来启动Azkaban:注: 这个部分为绝对路径然后即可用浏览器访问http://localhost:8081 (若将azkaban部署到服务器上,则 localhost为服务器的IP地址)二、在Tomcat中部署在解压缩后的dist目录下有一个预置的war文件。这个文件可以使用标准方法在Tomcat或任何servlet容器

2013-07-15 15:37:48 1752

转载 Hprof使用及在Hadoop中MR任务使用

J2SE中提供了一个简单的命令行工具来对java程序的cpu和heap进行 profiling,叫做HPROF。HPROF实际上是JVM中的一个native的库,它会在JVM启动的时候通过命令行参数来动态加载,并成为 JVM进程的一部分。若要在java进程启动的时候使用HPROF,用户可以通过各种命令行参数类型来使用HPROF对java进程的heap或者 (和)cpu进行profiling的功

2013-07-15 15:28:55 1571

转载 Hadoop公平调度器指南

最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。

2013-07-15 12:56:22 1176

原创 Hadoop集群下线节点

Hadoop提供了Decommission的特性,可以按照以下步骤来操作:1. 在hadoop的conf目录下生成一个excludes的文件,写上需要remove的节点ip    一个节点一行,注意要写ip,不能写Hostname,如:     10.10.70.732. 在hdfs-site.xml中增加配置:        dfs.hosts.exc

2013-07-15 12:44:37 3974 1

原创 impala1.0.1安装

一、节点部署情况1、cdh4.2.1 HA安装节点:iphosts进程备注10.32.71.18master1.jnhadoop.comNameNode JournalNode ZooKeeper HdfsZkfc默认NN启动为active10.32.71.19master2.j

2013-07-15 10:32:29 1849

转载 Hadoop简介

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应

2013-07-14 21:19:46 1765

转载 深度分析如何在Hadoop中控制Map的数量

深度分析如何在Hadoop中控制Map的数量[email protected]很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造

2013-07-09 12:54:59 962

转载 linux系统负载高怎么办

1:load Average1.1:什么是Load?什么是Load Average?   Load 就是对计算机干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing)   简单的说是进程队列的长度。Load Average 就是一段时间(1分

2013-07-04 10:17:29 4325 1

转载 Hadoop MapReduce容错性分析

本文讲述Hadoop-0.21.0 以及以上版本中MapReduce的容错机制。包括JobTracker,TaskTracker,Job,Task,Record等级别的容错机制。1. JobTracker        暂无容错机制,挂掉之后,需要人工介入,重启。        用户可以通过配置一些参数,以便JobTracker重启后,让所有作业恢复运行。用户配置若干参数后,Job

2013-07-01 15:13:53 1020

转载 hadoop fsck 命令详解

hadoop  fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]                     检查这个目录中的文件是否完整        -move               破损的文件移至/lost+found目录

2013-07-01 11:12:10 1076

转载 hadoop的dfs.replication

首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1

2013-07-01 10:34:13 1752

oracle 内置sql函数

oracle 内置sql函数 ,内置函数详细说明,

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明,值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程 并发集合 显示锁 数据冲突 死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解 学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。 3.灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。 5.无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

2009-10-25

UML类图各种关系详解

UML类图各种关系详解 包括 继承 实现 聚合 等等 一张图道出类之间的各种关系 直观容易

2009-09-09

java 异常详解,java异常分类,创建自己的异常

java 异常详解,java异常分类,创建自己的异常

2009-08-18

servlet 返回 URL

Servlet 中处理 URL,获取表单内以及URL上所有的参数

2009-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除