自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

转载 JVM启动参数大全

java启动参数共分为三类;其一是标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容;其二是非标准参数(-X),默认jvm实现这些参数的功能,但是并不保证所有jvm实现都满足,且不保证向后兼容;其三是非Stable参数(-XX),此类参数各个jvm实现会有所不同,将来可能会随时取消,需要慎重使用;本文主要描述标准参数部分,剩下的两个部分将会陆续推出;标准参数

2012-01-13 13:54:24 18334

转载 修复hbase region hole问题流程

修复hbase region hole问题流程1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法,   首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功   2,重新起动hbase集群,是否会进行闭环检测?未成

2012-01-01 15:51:55 12668 1

转载 关于Memstore的大小设置一点经验

Hbase的Memstore固化为Hfile的主要触发条件为三个: 1、Hlog的存储文件数目达到上限32(默认配置),一个Hlog的大小默认配置为HDFS的block的95%,这样的话,假定HDFS的块大小为64M,32个文件的话,可以存储的数据量为2G左右。 如果当Hlo

2011-10-19 11:31:03 14285 1

转载 HBase性能调优

这里有一些关于性能调优参数的总结和说明,其中有一些自己的经验以及参数书籍《HBase The definitive Guide》: 第一章:GC的相关参数配置 1.swap的设置: 我们需要关闭操作系统的swap或是设置swappiness为0,推荐设置为0,这样只有

2011-10-19 11:21:45 18501

转载 JVM垃圾回收

在jvm中堆空间划分为三个代:年轻代(Young Generation)、年老代(Old Generation)和永久代(Permanent Generation)。年轻代和年老代是存储动态产生的对象。永久带主要是存储的是java的类信息,包括解析得到的方法、属性、字段等等。永久

2011-10-18 15:22:16 6620

转载 hbase中服务器时间不同步造成的regionserver启动失败

今天配置hbase的时候发现有几台机器的regionserver启不来。报错如下:         at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)        at s

2011-10-17 16:02:16 9712

转载 hbase+hadoop运维的一点经验

目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,cl

2011-10-17 15:59:32 8410 1

原创 在多硬盘情况下的Hadoop配置注意项

一、背景1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。2、在做修改之前,当然

2011-09-21 14:04:34 18642 1

原创 HBase的一点纪要

1.        数据rowkey散列方便入库速度提升2.        一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开3.        10台节点入库一个列族的表request数量应该在20W左右4.        Bulk Load增

2011-08-04 09:41:46 8549 2

原创 通过Hadoop的API管理Job

一、背景前些时候写了一篇这样的文档,由于当时的时间比较紧,且有些细节内容不太好细说,于是写的比较粗。之后也有些朋友发邮件给我,问我要详细的过程以及管理方式。于是,今天就像把这个内容细化,写在这里,供大家参考。二、环境简述Ø  操作系统Linux、JDK1.6Ø  Hadoop 0

2011-07-07 18:01:38 18905 10

原创 Hadoop集群的配置调优

一、背景Hadoop的集群使用也有些时候了,不过都是小集群的使用(数量小于30台)。在这个过程中不断的进行着配置调优的操作。最早的时候,在网上也没有找到一些合适的配置调优方法,于是,我在这里列举一些基本的调优配置,以供参考。最后,还有一个我自己的测试环境的配置说明,也可以参看一下

2011-07-07 17:53:53 31550 2

转载 使hadoop支持Splittable压缩lzo

在hadoop中使用lzo的压缩算法可以减小数据 的大小和数据的磁盘读写时间,不仅如此,lzo是基于block分块的,这样他就允许数据被分解成chunk,并行的被hadoop处理。这样的特点,就可以让lzo在hadoop上成为一种非常好用的压缩格式。由于压缩的数据通常只有原始数据的1/4,在HDFS中存储压缩数据,可以使集群能保存更多的数据,延长集群的使用寿命。不仅如此,由于 mapreduc

2011-06-29 13:09:00 10111

转载 netperf 与网络性能测量

在构建或管理一个网络系统时,我们更多的是关心网络的可用性,即网络是否连通,而对于其整体的性能往往考虑不多,或者即使考虑到性能的问题,但是却发现没有合适的手段去测试网络的性能。当开发出一个网络应用程序后,我们会发现,在实际的网络环境使用中,网络应用程序的使用效果不是很理想,问题可能出现在程序的开发上面,也有可能由于实际的网络环境中存在着瓶颈。面对这种问题,程序员一般会一筹莫展,原因就在于不掌握一

2011-06-20 17:39:00 6645

转载 Ganglia安装详解(CentOS_5.5_Final版)

1. 安装rrdtool 1.1. 安装依赖包 Ø 拷贝CentOS软件包 将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。 Ø 安装zlib开发包 rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.rpm Ø 安装freetype开发包: rpm -ivh /root/CentOS/freetype-devel-

2011-06-20 17:36:00 11456

原创 HBase信息,这个博客日志写的不错,直接转链接

http://www.blogjava.net/ivanwan/archive/2011/06/09.html

2011-06-16 16:46:00 7253

转载 提升hbase性能的几个地方

1、hbase对于内存有特别的嗜好,在硬件允许的情况下配足够多的内存给它。     通过修改hbase-env.sh中的     export HBASE_HEAPSIZE=3000 #这里默认为1000m2、修改java虚拟机属性     (1)、在环境允许的情况下换64位的虚拟机     (2)、替换掉默认的垃圾回收器,因为默认的垃圾回收器在多线程环境下会有更多的wait等待     ex

2011-06-16 16:39:00 9485 1

转载 HBase性能测试小结

性能测试小结: 测试环境: 机器:1 client 5 regin server 1 master 3 zookeeper 配置:8 core超到16 /24G内存,region server分配了4G heap /单seta磁盘,raid10后500GB 系统:Red Hat Enterprise Linux Server release 5.4 版本:hadoop-0.20.2+737 / hbase-0.90.1 / Java HotSpot(TM) 64-Bit

2011-05-23 10:53:00 17930

转载 对提高HBase写性能的一些思考

以下为使用hbase一段时间的三个思考,由于在内存充足的情况下hbase能提供比较满意的读性能,因此写性能是思考的重点。希望读者提出不同意见讨论 1 autoflush=false的影响     无论是官方还是很多blog都提倡为了提高hbase的写入速度而在应用代码中设置autoflush=false,然后lz认为在在线应用中应该谨慎进行该设置。原因如下:     a autoflush=false的原理是当客户端提交delete或put请求时,将该请求在客户端缓存,直到数据超过2M(hbase.c

2011-05-23 10:42:00 18195 2

转载 windows下eclipse perl插件epic的安装及配置

为了在Windows下使用Perl,需要安装ActivePerl。ActiverPerl现在有两个版本ActivePerl 5.10.0.1003和ActivePerl 5.8.8.822,你可以自由选择其中之一下载安装。网址为: http://www.activestate.com/store/download.aspx?prdGUID=81fbce82-6bd5-49bc-a915-08d58c2648ca  安装完以后就可以在CMD中查看是否安装成功 perl –v Perl -V 是查看Per

2011-04-29 14:15:00 19360 2

原创 Perl学习记录(二) -- 逻辑控制

一、if语句。个人感觉相当类似于java的判断,直接贴上代码,共自己以后参考。 #!/usr/bin/perl$abc = "dajuezhao";if ($abc eq "dajuezhao"){ print "yes";}else{ print "no"; }print "/n";做了个if的判断,如果变量abc等于dajuezhao,那么,控制台输出yes,否则输出no。运行结果如图:2、关于布尔值。

2011-04-28 16:35:00 7828

原创 Perl学习记录(一) -- HelloWorld

因为工作关系,发现Perl是一个很不错的语言,轻巧,灵便,所以决定花点业余时间学习一下,从今天开始不定期的记录学习过程,但愿能够有我结尾的那一篇出现。祈祷、阿门~~! 一、安装环境 开发环境采用的是Windows系统,所以我选择了eclipse的插件EPICplugins作为编辑工具。安装步骤如下: 1、在eclipse中http://e-p-i-c.sf.net/updates设置下载地址。 2、自动更新、下载、安装、完事。 这里完成之后,再安装ActivePerl,直接在360软件中心找,很方

2011-04-27 16:53:00 5694

原创 生成HFile以及入库到HBase

一、MR生成HFile文件package insert.tools.hfile;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.ha

2011-04-26 18:38:00 22558 9

原创 基于CentOS安装CDH3Beta4版的Hadoop和HBase

一、背景 因为最近使用hadoop发现了一些问题,而且也没有太多的时间去对其本身进行修改,所以,在朋友的建议下采用了cloudera的CDH3版本。相对来说比较稳定和可靠,官网的地址如下:http://www.cloudera.com/ 二、CentOS和JDK安装步骤 1、进入到centOS的官方网址http://isoredirect.centos.org/centos/5/isos/x86_64/。 2、选一个镜像点击进去,下载CentOS-5.5-x86_64-bin-DVD.torrent

2011-04-26 15:46:00 3816

原创 通过web页面查看HDFS文件系统

一、背景 因为做hadoop的开发,所以有些时候需要通过web对hdfs文件系统进行查看。如果开发机器是Linux系统,那么只要更改/etc/hosts文件就可以了,但是在Windows下,通过web页面查看,通常会报错,说是找不到域名。因此带来十分不方便。 二、操作 修改C:/WINDOWS/system32/drivers/etc/hosts文件,内容同样和Linux下修改方式一下。例如我现在有三台机器构成的测试集群: Master:10.0.14.110   机器名称:m110 Slave:

2011-04-26 15:26:00 25830

原创 HBase入库性能问题

这个文档置顶很久了,还是写点东西吧。HBase这个东西的入库速度说实在的,在多列族的情况下表现很一般,实在是不值得提。具体的原因是由于多列族在hbase的写入机制决定的,有兴趣的可以在网上找找资料,这里我只说单列族的情况下的我的测试结果:集群的规模为9(S)+

2011-04-13 11:05:00 6321 3

转载 关于Hadoop数据块Miss在页面提示的问题

这个文档转至台湾的已了论坛,地址是:http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=4&t=1938請教一個hadoop運行維護中的問題:背景:調整hadoop配置:1. hadoop的dfs.replication之前設置為1,現在改為3;2. 去掉一個節點,增加6個節點。現狀50070頁面出現提示:WARNING : There are about 900 missing blocks. Please check the log or run fsck.運

2011-04-13 10:06:00 15560

转载 HBase简介

<br />一、 简介<br />history<br /><br />started by chad walters and jim<br />2006.11 G release paper on BigTable<br />2007.2 inital HBase prototype created as Hadoop contrib<br />2007.10 First useable Hbase<br />2008.1 Hadoop become Apache top-level project an

2011-03-15 16:32:00 4073 3

转载 Htable数据的访问问题

<br /><br />做了几天工程,对HBase中的表操作熟悉了一下。下面总结一下常用的表操作和容易出错的几个方面。当然主要来源于大牛们的文章。我在前人的基础上稍作解释。<br />1.连接HBase中的表testtable,用户名:root,密码:root<br />public void ConnectHBaseTable()<br /> {<br />  Configuration conf = new Configuration();       <br />        conf.set("h

2011-03-07 12:51:00 2884 1

原创 Nexus的安装和应用

一、环境 操作系统:Windows XP, JDK:JDK 1.6.0 Nexus:nexus-oss-webapp-1.8.0.1-bundle.zip 其他软件:Cygwin 、apache-maven-3.0.2。 二、下载和安装 1、下载 进入链接http://nexus.sonatype.org/downloads/,下载目前的最新版本nexus-oss-webapp-1.8.0.1-bundle.zip到E:/。 2、安装 Nexus提供了两种安装方式,一种是内嵌Jetty的b

2011-02-14 11:52:00 10151

原创 Maven的安装和应用(部分转载)

一、Maven的安装 1、环境 操作系统:Windows XP JDK:JDK 1.6.0 Maven:apache-maven-3.0.2 2、下载和安装 到Maven官方网站http://maven.apache.org/download.html 下载目前的最新版本apache-maven-3.0.2-bin.zip 下载到本地E:/ apache-maven-3.0.2-bin.zip,只需解压成E:/apache-maven-3.0.2即完成安装,目录结构为如下 3、配置环

2011-02-14 11:33:00 6126 1

原创 Subversion的安装和使用

一、环境 1、操作系统:Windows XP 2、JDK:JDK 1.6.0 二、下载和安装 相关软件已经相应的网址: 软件 网址 备注 apache_2.2.14-win32-x86-openssl-0.9.8k.msi http://archive.a

2011-02-14 10:53:00 49837 3

原创 Hadoop的基准测试工具使用(部分转载)

一、背景 由于以前没有细看hadoop提供的测试工具,只是在关注hadoop本身的内容,所以很多的性能测试都忽略了。最近花了一周的时间准备做个性能测试,但是都是采用自己的方法得出的抽象值。今天看淘宝的博客,提到hadoop自带的测试工具,遂试了一把,记录一下,供以后参考。 二、使用 我做基准测试主要是用了hadoop-mapred-test-0.21.0.jar这个工具jar包。主要是做了I/O的测试。在网上也找了一些资料,抄抄谢谢记录如下: DFSCIOTest    测试libhdfs中的分布式

2011-01-07 10:53:00 6104 2

原创 分布式集群中的硬件选择

一、背景 最近2个月时间一直在一个阴暗的地下室的角落里工作,主要内容就是hadoop相关的应用。在这期间,Hadoop的应用确实得到认可,但是同时也带来了一些问题,软件方面我就不在这里说了,只说说一些物理方面的局限: 1、众所周知,hadoop能够接受任何类型的机器加入集群,在多不在精。但是这带来一个问题,机房的空间开销以及电费。 2、机器太多,人力维护成本也是增加的。机柜啊、物理空间都是个不小的负担和开销。 刚好,在这个问题产生的同时,十分幸运的被一同事叫出来,去参加一个会议,得以有机会走上地面。

2010-12-21 10:30:00 3068 3

原创 Map/Reduce的内存使用设置

一、背景 今天采用10台异构的机器做测试,对500G的数据进行运算分析,业务比较简单,集群机器的结构如下: A:双核CPU×1、500G硬盘×1,内存2G×1(Slaver),5台 B:四核CPU×2、500G硬盘×2,内存4G×2(Slaver),4台 C:四核CPU×2、500G硬盘×2,内存4G×8(Master),1台 软件采用Hadoop 0.20.2,Linux操作系统。 二、过程 1、制造了500G的数据存放到集群中。 2、修改配置,主要是并发

2010-12-15 15:27:00 6711

转载 Hadoop开发常用的InputFormat和OutputFormat

Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。 KeyValueTextInputForm

2010-11-23 10:29:00 8533

原创 SecondaryNamenode应用摘记

一、环境 Hadoop 0.20.2、JDK 1.6、Linux操作系统 二、背景 上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将secondarynamenode重新配置到其他机器上,并做namenode挂掉并恢复的测试。 三、操作 1、关于

2010-11-04 15:59:00 5748 3

原创 Map/Reduce中Join查询实现

一、背景早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoop0.20.2三、资料数据在做这个J

2010-10-25 15:12:00 5817 8

原创 JobClient应用概述

一、应用背景 由于在设计中有一个模块是对Job的管理,所以,在这里我采用了JobClinet来进行简单的控制。 二、应用点 JobClient指的是org.apache.hadoop.mapred.JobClient这个类。里面有不少的方法,我这里列举一些我用到的和一些需要注意的方法。 1、JobClient的实例化。这里有2中方法,一种是new JobClient(new JobConf);另外一种是实例化IP地址和端口。 2、通过JobClient获取Job列表。 JobClient.job

2010-10-21 16:07:00 5514

原创 通过Hadoop的API对Job进行管理

一、需求背景 由于我们在做一些业务的时候,可能需要多个Job来组合才能满足一个也许需求,而每个Job之间都有依赖关系,所以产生了需要对Job顺序的控制。总结一下需求,大体如下: 1、Job之间有先后的顺序执行问题。 2、需要对每个Job的状态进行监控(是否完成以及失败情况处理等等) 3、对可以并发执行的Job调整。 4、每个Job处理时的信息的采集以及记录。 5、能够灵活添加或删除要执行的Job队列。 如果以上需求去掉2和4,那么,我们通过脚本就可以做到(如shell)。但是如果要获取Job的

2010-10-20 10:42:00 3004

原创 Hadoop应用设计的思考

      最近的事确实很多,但大部分精力都放在了项目的设计方面,最近几天才完成了一些初步的编码的工作。在这个阶段,我发现,需要对数据的录入和Job执行的管理做细致的规划,否则在后期的扩展性上将有很大的局限。我设计的框架大体如下:                                                        在这个结构里面,可以明显的看到我采用了2种Client,一个是数据录入层,一个是Job管理层。这里我说明一下为什么需要这2种Client。 1、数据录入主要接收数

2010-09-30 10:15:00 1525 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除