ImportTsv-HBase数据导入工具

HBase官方提供了基于Mapreduce的批量数据导入工具:Bulk load和ImportTsv。关于Bulk load大家可以看下我另一篇博文。通常HBase用户会使用HBase API导数,但是如果一次性导入大批量数据,可能占用大量Regionserver资源,影响存储在该Regionse...

2015-07-28 22:08:38

阅读数:10040

评论数:0

互联网秒杀设计

吕毅,百度公司资深研发工程师,传统的LAMP人。  2012年从新浪平台架构部加入百度移动服务事业群组(MSG)某业务线(以下简称“A”)。在百度期间,随着产品线发展和业务上QPS增长,架构设计方面略有所获,对移动端业务、优化有独特的理解和方法。 分享内容抢先看 本次分享介绍了A对抢购业务的...

2015-07-26 09:11:23

阅读数:6408

评论数:0

Bulk Load-HBase数据导入最佳实践

HBase本身提供了很多种数据导入的方式,通常有两种常用方式: 1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase 2、另一种方式就是使用HBase原生Client API 这两种方式由于需要频繁的与数据所存储的RegionServ...

2015-07-25 11:27:08

阅读数:10633

评论数:5

Java 堆内存模型

堆内存 Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。 在 Java 中,堆被划分成两个不同的区域:新生代 ( Young )、老年代 ( Old )。新生代 ( Young ) 又被划分为三个区域:Eden、From Survivor、To Survi...

2015-07-23 21:49:37

阅读数:6238

评论数:0

Llama-impala on yarn的中间协调服务

早期的Impala版本中,为了使用Impala,我们通常会在以Client/Server的结构在各个集群节点启动impala-server、impala-state-store和impala-catalog服务,并且在启动过程中无法动态调整内存和CPU的分配。CDH5之后,Impala开始支持Im...

2015-07-17 17:01:39

阅读数:3590

评论数:2

Spark编程指南V1.4.0(翻译)

Spark编程指南V1.4.0 ·        简介 ·        接入Spark ·        Spark初始化         ·        使用Shell         ·        在集群上部署代码 ·        弹性分布...

2015-07-17 11:03:05

阅读数:9547

评论数:0

HBase基本数据操作详解

引言 本文档参考最新(截止2014年7月16日)的官方Ref Guide、Developer API编写。 所有代码均基于“hbase 0.96.2-hadoop2”版本编写,均实测通过。 概述 对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表...

2015-07-08 15:04:23

阅读数:5452

评论数:0

HBase数据存储格式

好的数据结构,对于检索数据,插入数据的效率就会非常高。 常见的数据结构 B+树 根节点和枝节点很简单,分别记录每个叶子节点的最小值,并用一个指针指向叶子节点。  叶子节点里每个键值都指向真正的数据块,每个叶子节点都有前指针和后指针,这是为了做范围查询时,叶子节点间可以直接跳转,...

2015-07-05 11:12:50

阅读数:6790

评论数:0

JVM调优系列:(五)JVM常用调试参数和工具

JVM常用调试用参数: –verbose:gc在虚拟机发生内存回收时在输出设备显示信息 -Xloggc:filename把GC相关日志信息记录到文件以便分析 -XX:-HeapDumpOnOutOfMemoryError当首次遭遇OOM时导出此时堆中相关信息 -XX:OnError=";...

2015-07-01 22:21:48

阅读数:6306

评论数:0

JVM调优系列:(四)GC垃圾回收

跟踪收集算法: 复制(copying): 将堆内分成两个相同空间,从根(ThreadLocal的对象,静态对象)开始访问每一个关联的活跃对象,将空间A的活跃对象全部复制到空间B,然后一次性回收整个空间A。因为只访问活跃对象,将所有活动对象复制走之后就清空整个空间,不用去访问死对象,不需要标记骤,所...

2015-07-01 22:18:44

阅读数:6475

评论数:0

JVM调优系列:(三)类加载和执行机制

JVM的类加载是通过ClassLoader及其子类来完成的,类的层次关系和加载顺序可以由下图来描述: 每个ClassLoader加载Class的过程是: 1.检测此Class是否载入过(即在cache中是否有此Class),如果有到8,如果没有到2 2.如果parent classloader不存...

2015-07-01 22:16:57

阅读数:2455

评论数:0

JVM调优系列:(二)JVM运行时数据区域

1) Method Area 2) Heap 3) Java Stacks 4) PC Registers 5) Native Method Stacks   JAVA的JVM的内存模型大致可分为3个区: 堆区: 1.存储的全部是对象,每个对象都包含一个与之对应的class的信息。(class的...

2015-07-01 22:15:07

阅读数:1673

评论数:0

JVM调优系列:(一)什么是JVM

SUN的JDK从1.3.1开始使用HotSpot虚拟机技术,主要使用C++实现,JNI接口部分用C实现. JAVA原先是把源代码编译为字节码在虚拟机执行,这样执行速度较慢.而HotSpot编译器将常用的部分代码编译为本地(native)代码,这样显著高了性能. HotSpot包括一个解释器和两个编...

2015-07-01 22:13:08

阅读数:1381

评论数:0

优化Linux下的内核TCP参数来提高服务器负载能力

提高服务器的负载能力,是一个永恒的话题。在一台服务器CPU和内存资源额定有限的情况下,最大的压榨服务器的性能,是最终的目的。要提高Linux系统下的负载能力,可以先启用Apache的Worker模式(参考我写的《Ubuntu下配置Apache的Worker模式》一文),来提高单位时间内的并发量。但...

2015-07-01 21:07:28

阅读数:5182

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭