云计算
IT冲浪者
这个作者很懒,什么都没留下…
展开
-
Impala入门笔记
问题背景:1. 初步了解Impala的应用2. 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:1. 了解Impala的安装过程2. 初步了解Impala的使用3. 比较Impala与Hive的性能测试适合阅读对象:1. 想了解Impala安装的读者2. 想了解Impala与Hive性能比较的读者不涉及的内容:1. 如何安原创 2013-06-07 15:21:44 · 1120 阅读 · 0 评论 -
hbase 多用户写操作 regionserver突然宕掉(一)
近期对hbase多用户插入数据时,regionserver会莫名奇妙的关闭,regionserver的日志有很多异常:如下:org.apache.hadoop.hbase.DroppedSnapshotException: region: t,12130111020202,1369296305769.f14b9a1d05ae485981f6a8579f1324fb.转载 2014-01-07 15:20:16 · 1320 阅读 · 0 评论 -
关于HBase删除多行的讨论
有时候会有这样的需求,需要删除指定某些行的数据。但是笔者看《HBase权威指南》好像没有Delete的filter(过滤器),所以想了一下如果实现删除指定行的方法如果知道要删除某些行的行键,那么很简单,用List就可以完成这个功能如果要删除的行在表中是连续的,也就是删除指定范围的行,但是你还不知道这个范围内所有的行键,比如一个表中行键11-19的行,但是表中只有11,13,16。这转载 2014-01-07 15:28:13 · 1159 阅读 · 0 评论 -
关于hadoop的API写文件的备份数问题
今天用hadoop API打算往hadoop集群创建几个文件,然后写入数据试试,结果问题发生了,我的配置文件备份数是1,但是不管我怎么创建,创建的文件备份数都是3。代码如下:[html] view plaincopyprint?span style="font-size:14px;"> public static void testHDFS转载 2014-01-07 15:43:31 · 714 阅读 · 0 评论 -
HBase 官方文档-中文版
来源:http://www.yankay.com/wp-content/hbase/book.html HBase 官方文档Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译)Revision HistoryRevision 0.90.4转载 2014-01-07 16:52:47 · 2494 阅读 · 0 评论 -
在大迸发写时,HBase的HDFS DFSClient端报SocketTimeoutException的问题分析和解决
异常日志:2012-03-02 12:11:21,983 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_1439491087566691588_6207java.net.SocketTimeoutException: 69000 millis转载 2014-01-07 15:13:46 · 927 阅读 · 0 评论 -
HBase建表函数createTable的几点说明
HBase建表函数提供了四个重载函数,分别是[java] view plaincopyprint?void createTable(HTableDescriptor desc) void createTable(HTableDescriptor desc, byte[] startKey,byte[] endKey, int numRe转载 2014-01-07 15:17:22 · 2850 阅读 · 0 评论 -
hbase 多用户写操作 regionserver突然宕掉(二)
hbase多用户写入数据 写了十个小时左右 regionserver就宕机了 查看regionserver的日志文件,异常很平常,如下:org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /hbase/t/ff0b5a311419578f75678c21d5a27148/.tmp/57086375024405转载 2014-01-07 15:22:20 · 749 阅读 · 0 评论 -
HBase 系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Goog转载 2014-01-07 15:33:07 · 516 阅读 · 0 评论 -
Hadoop源代码的边角料:HDFS的数据通信机制
http://blog.csdn.net/historyasamirror/article/details/6281689这阵子花了点时间读了读HDFS的源代码。有所得。不过网上关于Hadoop源代码的解析已经挺多了,所以自称为“边角料”,也就是一些零散的心得和想法。 简单而言,HDFS分为了三个部分:NameNode,处于master的地位,维护了数据在Dat转载 2014-01-07 15:46:19 · 638 阅读 · 0 评论 -
非集群client访问HBase方法
对HBase的操作,有时候需要不在集群内部,也就是说A、B、C三台主机构建HBase,现在需要主机D来操作HBase。client是通过Zookeeper来访问HBase的,而Zookeeper通过DNS解析主机名来访问ip,通过以下两步就可以用主机D来操作HBase把client的hosts上添加A,B,C的主机名和ip(linux是/etc/hosts,windows是c:\w转载 2014-01-07 15:48:01 · 689 阅读 · 0 评论 -
HBase中LeaseException及ClosedChannelException解决办法
随着数据量的增大,HIVE查询HBase的时候又出现了scan数据缓慢的问题,上次是因为跨网段读数据没有设置client端cache,这次是在HBase regionserver的log中出现了如下错误: [plain] view plaincopyorg.apache.hadoop.hbase.regionserver.LeaseExc转载 2014-01-07 17:13:11 · 1364 阅读 · 0 评论 -
ganglia监控的安装
以前安装过ganglia的监控,过程比较复杂,最近在新的集群环境下部署了监控,这里做个笔记。ganglia监控的架构图如下,相关的原理这里不多说了。1、配置yum的源这里利用公司的yum源,增加wxlab136.repo到/etc/yum.repos.d目录下[Server]name=10.1.1.136#baseurl=ftp://10.1.1.136/p转载 2014-01-07 17:19:08 · 838 阅读 · 0 评论 -
HBase的hbase.rpc.timeout参数引起的问题
在高并发压力测试时,发现对一个reginserver做scan操作的时,regionserver中偶尔会输出下面的错误:2013-02-21 09:50:33,328 WARN org.apache.hadoop.ipc.HBaseServer: IPC Server listener on 60020: readAndProcess threw exception java.io转载 2014-01-07 17:22:40 · 2166 阅读 · 0 评论 -
Hbase的优化总结
上面这张图不是一太清晰,我后面给个单独的连接 这里的HBase的优化主要从三个大的维度来进行分析1、系统硬件 采用普通的PC Server即可,Master要求高一点(比如8 CPU,48G内存,SAS raid),Regionserver(如8CPU,24G内存,1T*12 SATA JBOD) 对于存储regionserver节点采用JBO转载 2014-01-07 17:25:00 · 611 阅读 · 0 评论 -
HBase的的管理笔记
一、数据移植1、 bulk load toolimporttsv用法:importtsv -Dimporttsv.columns=a,b,c -Dimporttsv.skip.bad.lines=false - fail if encountering an invalid line'-Dimporttsv.separator=|' - eg separa转载 2014-01-07 17:29:04 · 744 阅读 · 0 评论 -
在 Hadoop 上编写 MapReduce 程序
Map Reduce是包含两个过程:Map过程和Reduce过程。每一个过程都包含键值对作为输入,程序员可以选择键和值的类型。Map和Reduce的数据流是这样的:Input ==> Map ==> Mapper Output ==> Sort and shuffle ==> Reduce ==> Final Output使用Java编写Hadoop Map Reduce代转载 2014-02-10 14:26:07 · 833 阅读 · 0 评论 -
分布式数据库 Hbase 的高可用管理和监控
HBase 作为 BigTable 的一个开源实现,随着其应用的普及,越来越被各大企业应用于海量数据系统中。本文将向读者简要介绍 Apache HBase 的基本知识,并展开介绍 IBM 对 HBase 的改进和扩展,HBase Master 多结点高可用支持,以及如何利用 IBM BigInsights 在 IBM Hadoop 集群中对 HBase 服务和作业提交进行监控和管理。本文将帮助转载 2013-12-23 10:36:48 · 1415 阅读 · 0 评论 -
HBase数据写入测试
测试环境测试硬件:4核i5处理器,8G内存,1T硬盘,千兆网络测试软件:ubuntu12.10 64位,hadoop版本:0.20.205,hbase版本:0.90.5测试设置:一个master(namenode)和三台resigonServer(datanode),向HBase集群写入1千万个数据(一个数据15K左右)测试结果转载 2014-01-07 15:39:26 · 919 阅读 · 0 评论 -
浅析hadoop写入数据api
对于一般文件,都有满足随机读写的api。而hadoop中的读api很简单用FSDataInputStream类就可以满足一般要求,而hadoop中的写操作却是和普通java操作不一样。hadoop对于写操作提供了一个类:FSDataOutputStream,这个类重载了很多write方法,用于写入很多类型的数据:比如字节数组,long,int,char等等。像FSDataInput转载 2014-01-07 15:35:06 · 799 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码 package com.wujintao.hbas转载 2013-07-25 18:29:11 · 743 阅读 · 0 评论 -
Hadoop Hive与Hbase整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase 0.原创 2013-08-16 10:53:36 · 839 阅读 · 0 评论 -
hadoop, hbase, zookeeper集群搭建
Hadoop、ZooKeeper和HBase之间应该按照顺序启动和关闭:启动Hadoop—>启动ZooKeeper集群—>启动HBase—>停止HBase—>停止ZooKeeper集群—>停止Hadoop。集群 管理脚步 hzh-manager.sh三台机器,一台master (角色:namenode, hbase master, zookeeper), 两台sla原创 2013-08-16 10:32:58 · 1090 阅读 · 0 评论 -
HBase入门篇
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式原创 2013-08-16 10:37:01 · 5142 阅读 · 1 评论 -
HBase图形界面管理工具HBaseXplorer发布1.0.2
HBase图形界面管理工具HBaseXplorer发布1.0.2HBaseXplorer 是一款HBase管理工具,采用JAVA界面方式,查看和管理数据都很发布.HBaseXplorer原名为 hbase-gui-admin ,是由 zpasal 开发的一款HBase管理工具,并将之开源,原始连接地址在: https://github.com/zpasal/hbase-gui-ad原创 2013-08-16 10:56:48 · 4837 阅读 · 0 评论 -
hbase shell基础和常用命令详解
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Big原创 2013-10-29 16:21:13 · 797 阅读 · 0 评论 -
Ganglia3.1.7安装与配置
一、所需要软件二、安装过程 1、Ganglia运行平台的安装 2、Ganglia依赖库的安装 3、RRDTool的安装 4、Ganglia的安装 (包括使用yum方式安装)三、简单配置四、启动与访问五、被监控节点上安装Ganglia (包括使用yum方式安装)六、遇到的问题,及解决办法 流行的开源服务器集群监控工具有很多转载 2013-11-06 17:23:51 · 742 阅读 · 0 评论 -
Hbase shell详情
HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等。备注:写错 HBase Shell 命令时用键盘上的“Delete”进行删除,“Backspace”不起作用。在启动 HBase转载 2013-11-07 13:43:52 · 841 阅读 · 0 评论 -
HBase 学习笔记---守护进程及内存调优
1、HMaster HMaster的任务前面已经说过了,两个大方向:一、管理Hbase Table的 DDL操作 二、region的分配工作,任务不是很艰巨,但是如果采用默认自动split region的方式, HMaster会稍微忙一些,负载不大,可适度对此进程做适量放大heap 的操作,但不可太大,因为更耗内存的是HRegionServer 2转载 2014-01-06 15:41:05 · 1048 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考Hbase性能调优1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大转载 2014-01-06 15:50:07 · 513 阅读 · 0 评论 -
提升HBase性能的几个地方
摘要:1、使用bloomfilter和mapfile_index_interval 注意:在1.9.3版本的hbase中,bloomfilter是不支持的,存在一个bug,可以通过如下的修改加以改正: (1)、在方法org.apache.hadoop.hbase.regionserver.HStore.createReaders()中,1、使用bloomfilter和mapfile_i转载 2014-01-06 15:53:03 · 588 阅读 · 0 评论 -
hbase shell 总结 (待续)
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录转载 2014-01-06 15:57:52 · 521 阅读 · 0 评论 -
Hadoop&Hbase 备份方案--Pacemaker&DRBD
Hadoop&Hbase 备份方案--Pacemaker&DRBD需求实现namenode的双机热备,保证Hadoop&Hbase的高可用性(HA)。方案描述当主namenode所在服务器宕机的时候,其服务和数据可迅速,完整,无缝的迁移到备份namenode从而保证hadoop集群的高可用性,持续的向外提供服务。转载 2014-01-06 16:09:43 · 765 阅读 · 0 评论 -
Hadoop&Hbase 双机热备--Pacemaker&DRBD部署
相关文章 DRBD的介绍请参考http://blog.csdn.net/rzhzhz/article/details/7103772 DRBD的部署请参考http://blog.csdn.net/rzhzhz/article/details/7107115 Pacemaker的介绍请参考http://blog.csdn.net/rzhzhz/article/details/转载 2014-01-06 16:13:12 · 704 阅读 · 0 评论 -
Hadoop源码分析----Client的open、seek和read操作
hadoop虽然没有提供POSIX那样的操作,但是提供的基本的文件操作open,create,delete,write,seek,read还是令用户可以方便的操作文件。下面是一段寻常的hadoop打开文件并且读取文件内容的代码:hdfs=hdfsPath.getFileSystem(conf);inFsData=hdfs.open(p);inFsData.seek(place);inFsData.转载 2014-01-07 15:25:06 · 1089 阅读 · 0 评论 -
Hadoop到底能做什么?怎么用hadoop?
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2014-02-10 14:28:01 · 3523 阅读 · 0 评论