HBase
文章平均质量分 73
u013063153
这个作者很懒,什么都没留下…
展开
-
spark将数据写入hbase以及从hbase读取数据
原文:http://blog.csdn.net/u013468917/article/details/52822074本文将介绍1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase2、spark从hbase中读取数据并转化为RDD操作方式为在eclipse本地运行spark连接到远转载 2017-10-20 16:20:19 · 1578 阅读 · 0 评论 -
HBase原理架构
HBase隶属于Hadoop生态系统,采用Master/Slave架构搭建集群,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下: 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、转载 2017-05-29 11:07:15 · 793 阅读 · 0 评论 -
通过Java API与HBase交互
原文:http://www.cnblogs.com/NicholasLee/archive/2012/09/14/2684815.htmlHBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要,下面看一下Java api创建、删除表,及记录的增删改查操作:package hbase;import java.io.转载 2017-05-18 10:27:08 · 339 阅读 · 0 评论 -
hbase配置、运行错误总结
原文:http://blog.pureisle.net/archives/1859.html一、执行$ hbase hbck 命令时,出现以下提示:Invalid maximum heap size: -Xmx4096mThe specified size exceeds the maximum representable size.Error: Could转载 2017-05-17 13:27:00 · 1016 阅读 · 0 评论 -
hbase参数配置优化
原文:http://blog.pureisle.net/archives/1869.html因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180转载 2017-05-17 13:25:52 · 559 阅读 · 0 评论 -
hbase表操作优化
原文:http://blog.pureisle.net/archives/1930.htmlHbase表写入1、使用批量加载工具,具体看链接: Section 9.8, “Bulk Loading”。2、巨量数据插入空表或小表的时候,需要注意hbase的分表原理。只有当一个region的数据打过阈值的时候才会进行分表操作。这意味着你巨量数据将会同时写入同转载 2017-05-17 13:20:17 · 357 阅读 · 0 评论 -
hbase shell基础和常用命令详解
原文:http://blog.pureisle.net/archives/1887.htmlHBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量转载 2017-05-17 13:15:56 · 322 阅读 · 0 评论 -
HBase入门-Java操作HBase
Java操作HBase例子本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成?HBase的内部工作原理是什么?我想学习任何一项知识、技术的态度不能只是知道如何使用,对产品的内部构建一点都不去关心,那样出了问题,很难让你很快的找到答案,甚至我们希望转载 2017-01-10 14:08:40 · 730 阅读 · 0 评论 -
Hbase split的三种方式和split的过程
原文:http://www.cnblogs.com/niurougan/p/3976519.html话,还是可能导致某个region过热,被集中访问,不过还好我们还有auto-split。最好的办法就是首先预测split的切分点,做pre-splitting,然后后面让auto-split来处理后面的负载均衡。 Hbase自带了两种pre-split的算法,分别是 HexS转载 2017-05-17 13:13:43 · 1573 阅读 · 0 评论 -
HBase列族不能太多的原因
原文:http://www.cnblogs.com/nucdy/p/5965113.htmlHRegionServer内部管理了一系列HRegion对象,每个HRegion对 应了table中的一个region,HRegion中由多 个HStore组成。每个HStore对应了Table中的一个column family的存储,可以看出每个columnfamily其实就是一个集中转载 2017-05-17 11:43:17 · 2834 阅读 · 0 评论 -
HBase Endpoint编程示例
Endpoint类似于关系型数据库中的存储过程,只不过这个存储过程会运行在多个Region上。终端是动态RPC插件的接口,它的实现代码被安装在服务器端,从而能够通过HBase RPC唤醒。客户端类库提供了非常方便的方法来调用这些动态接口,它们可以在任意时候调用一个终端,它们的实现代码会被目标Region远程执行,结果会返回到终端。用户可以结合使用这些强大的插件接口,为HBase添加全新的特性。转载 2017-06-09 17:47:11 · 1424 阅读 · 0 评论 -
HBase安装—standalone模式
1.hbase-env.sh中配置JAVA_HOME2.配置hbase-site.xml如下: hbase.rootdir file:///home/testuser/hbase hbase.zookeeper.property.dataDir /home/testuser/zookeeper3.启动cd bins原创 2017-06-24 21:57:27 · 784 阅读 · 0 评论 -
HBase调优小结
1.Table1.1 Pre-Creating Regions在默认情况下,在创建HBase表的时候,会自动创建一个region分区,当导入数据的时候,所有HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建的一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡原创 2017-06-25 13:30:53 · 1466 阅读 · 0 评论 -
Spark 下操作 HBase(1.0.0 新 API)
原文:http://wuchong.me/blog/2015/04/06/spark-on-hbase-new-api/HBase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark转载 2017-10-20 16:14:53 · 570 阅读 · 0 评论 -
HBase Connection Pooling
两种方法获得连接:Configuration configuration = HBaseConfiguration.create();ExecutorService executor = Executors.newFixedThreadPool(nPoolSize);(1)旧API中: Connection connection = HConnectionManag原创 2017-10-20 14:02:25 · 1194 阅读 · 0 评论 -
hbase 通过mapreduce方式对hbase表的备份及恢复(export import)
1, hbase自带的备份恢复工具hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1hbase org.apache.hadoop.hbase.mapreduce.Import 'table1' /home/fred/table1导入时必须先创建表结构。http://www.itey转载 2017-08-04 14:57:58 · 2363 阅读 · 0 评论 -
HBase完全分布式集群安装
查看Zookeeper的状态:zkServer.sh status启动HDFS:start-all.sh在conf目录下的hbase-env.sh中配置JAVA_HOME和export HBASE_MANAGES_ZK=false1.配置hbase-site.xmlvim hbase-site.xml hbase.rootdir原创 2017-06-24 23:23:20 · 526 阅读 · 0 评论 -
HBase性能调优<转>
原文:http://kenwublog.com/hbase-performance-tuning因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180转载 2017-07-25 15:41:34 · 346 阅读 · 0 评论 -
HBase原理体系架构
Hadoop生态系统HBase简介– HBase – Hadoop Database,是一个高可靠性(数据不能丢、服务不能挂)、高性能、面向列、可伸缩、实时读写的分布式数据库– 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务– 主要用来存储非结构化和半结构化的松散原创 2017-06-24 20:35:08 · 566 阅读 · 0 评论 -
HBase Coprocessor编程案例
1. 启用协处理器Aggregation(Enable Coprocessor Aggregation)两种方法:(1) 启动全局aggregation,能够操作所用表上的数据。通过修改hbase-site.xml文件实现,property> name>hbase.coprocessor.user.region.classesname> value>org.apac原创 2017-08-09 11:22:47 · 735 阅读 · 0 评论 -
hbase操作(shell 命令,如建表,清空表,增删改查)以及 hbase表存储结构和原理
原文:http://blog.csdn.net/longshenlmj/article/details/48317567两篇讲的不错文章http://www.cnblogs.com/nexiyi/p/hbase_shell.htmlhttp://blog.csdn.net/u010967382/article/details/37878701?utm_source=tuicool转载 2017-06-28 14:31:32 · 1705 阅读 · 0 评论 -
HBase优化之—在建表时预先分regions 代码
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;impor原创 2017-07-14 12:17:46 · 964 阅读 · 0 评论 -
HBase协处理器实战
原文:http://www.cnblogs.com/muzili-ykt/p/6056066.html主要内容:1. HBase协处理器介绍2. 观察者(Observer)3. 终端(endpoint)-------------------------------------------------------------------------转载 2017-05-26 17:00:14 · 437 阅读 · 0 评论 -
使用HBase Coprocessor协处理器
原文:http://www.zhyea.com/2017/04/13/using-hbase-coprocessor.htmlHBase的Coprocessor是模仿谷歌BigTable的Coprocessor模型实现的。Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据。首先必须要指明使用Coprocess转载 2017-05-17 13:06:55 · 8872 阅读 · 2 评论 -
HBase协处理器及实例
原文:http://blog.csdn.net/scgaliguodong123_/article/details/46714201为什么引入协处理器?Hbase作为列数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本(虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的转载 2017-05-24 20:44:54 · 649 阅读 · 0 评论 -
Hbase shell详情
HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等。备注:写错 HBase Shell 命令时用键盘上的“Delete”进行删除,“Backspace”不起作用。在启动 HBase转载 2017-03-07 16:11:18 · 317 阅读 · 0 评论 -
HBase Java编程示例
一、HBase Java API1.HbaseConfiguration 关系:org.apache.hadoop.hbase.HBaseConfiguration 作用:通过此类可以对HBase进行配置2.HBaseAdmin 关系:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供一个接口来管理HBase数据库中的表信转载 2017-03-06 14:11:24 · 611 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
Pig一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:)Pig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理转载 2017-01-10 14:29:05 · 473 阅读 · 0 评论 -
HBase概述
Apache HBase 是一个分布式的、面向列的开源数据库。正如上一节所提到的,该技术来源于 Google 的 Bigtable。就像 Bigtable 利用了 GFS 所提供的分布式数据存储一样,Apache HBase 在 Hadoop 之上提供了类似于Bigtable 的能力。HBase 是 Apache 的 Hadoop 项目的子项目。HBase 不同于一般的关系数据库,它是一个适合转载 2017-01-10 14:03:32 · 850 阅读 · 0 评论 -
HBase入门-安全与权限
安全&权限我的废话:大年三十夜,看春晚实在是太无聊了,整个《新闻联播》的电视剧版本,还不如上上网,看看资料,喝喝老酒,写点东西来的快活。近2年来云计算的话题到目前为止风风火火从来没有平静过,一直是大家嘴边讨论的热门话题,人们期望运用云计算提供可靠、稳定、高速的计算,在云计算中Google是目前最大的云计算供应商,例如:Google GAE(Google App Engine)和Goog转载 2017-01-10 14:13:50 · 3639 阅读 · 0 评论 -
HBase入门-MySQL与HBase
白话MySQL(RDBMS)与HBase之间我的废话1:任何一项新技术并非救命稻草,一抹一擦立马药到病除的百宝箱,并非使用Spring或者NOSQL的产品就神乎其神+五光十色,如果那样基本是扯淡。同类 型产品中不管那种技术最终要达到的目的是一样的,通过新的技术手段你往往可能避讳了当前你所需要面对的问题,但过后新的问题又来了。也许回过头来看看还不 如在原来的基础上多动动脑筋 想想办法 做转载 2017-01-10 14:12:53 · 1363 阅读 · 0 评论 -
HBase入门-压力失效与失效转发
压力分载与失效转发在上一篇关于HBase的文章中曾经讲述过HBase在分布式中的架构,这篇文章将会讲述HBase在分布式环境中是如何排除单点故障的(SPFO),做一个小实验讲述HBase在分布式环境中的高可用性,亲眼看到一些现象,延伸一些思考的话题。先来回顾一下HBase主要部件:HBaseMasterHRegionServerHBase ClientHBase Thrift Se转载 2017-01-10 14:11:43 · 19163 阅读 · 0 评论 -
HBase入门-存储
存储在HBase中创建的一张表可以分布在多个Hregion,也就说一张表可以被拆分成多块,每一块称我们呼为一个Hregion。每个Hregion会保 存一个表里面某段连续的数据,用户创建的那个大表中的每个Hregion块是由Hregion服务器提供维护,访问Hregion块是要通过 Hregion服务器,而一个Hregion块对应一个Hregion服务器,一张完整的表可以保存在多个Hreg转载 2017-01-10 14:10:38 · 640 阅读 · 0 评论 -
HBase入门-优化技巧
HBase优化技巧这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令进行修改,或者修改转载 2017-01-10 14:09:54 · 270 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
原文:这里概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展转载 2017-03-21 10:40:43 · 339 阅读 · 0 评论 -
Hive vs. HBase
Comparing Hive with HBase is like comparing Google with Facebook - although they compete over the same turf (our private information), they don’t provide the same functionality. But things can get con转载 2017-03-15 18:00:32 · 391 阅读 · 0 评论 -
HBase配置参数
原文链接:http://www.cnblogs.com/junrong624/p/3582610.htmlhbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenode.example.org的9转载 2017-04-13 17:38:42 · 6483 阅读 · 0 评论 -
【甘道夫】HBase基本数据操作详解【完整版,绝对精品】
原文:http://blog.csdn.net/u010967382/article/details/37878701引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。本文档参考最新(截止2014年7月16日)的官方Ref Guide、Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2”版本编写,均实转载 2017-05-24 14:02:33 · 621 阅读 · 0 评论 -
Hbase中文字符与byte[]的转换
原文:http://xiachaofeng.iteye.com/blog/1274929Hbase客户端信息采用byte[]与服务器进行通信,中文字符与byte[]的转换的转换有两种方式: 1.采用String类自带的函数 String s = "你好中国"; byte [] b = s.getBytes(); 对应的byte[]转换为String为: s =转载 2017-05-24 13:31:41 · 6817 阅读 · 0 评论 -
HBase优化
# HBase## 1.表的设计### 1.1Pre-Creating Regions默认情况下,在创建HBase表的时候,会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,原创 2017-05-24 11:06:10 · 340 阅读 · 0 评论