自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Kafka Stream介绍

Kafka Streams是一套类库,它使得Apache Kafka可以拥有流处理的能力,使用Kafka Stream API进行业务逻辑处理最后可以写回Kakfa或者其他系统中。Kafka Stream中有几个重要的流处理概念:严格区分Event time和Process Time、支持窗口函数...

2016-05-26 17:25:07 13844 0

原创 实战Spark分布式SQL引擎

Spark SQL除了使用spark-sql命令进入交互式执行环境之外,还能够使用JDBC/ODBC或命令行接口进行分布式查询,在这个模式下,终端用户或应用可以直接和Spark SQL进行交互式SQL查询而不需要写任何scala代码。

2015-06-24 20:57:56 4222 0

原创 kubernetes实战-基于redis和docker的留言簿案例

本案例基于Kubernetes和Docker,其中包括 1、web前端 2、redis master 其中web前端通过javascript redis api和redis master交互

2015-06-22 19:41:07 14601 6

原创 Docker入门实战

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上。 Docker是一个重新定义了程序开发测试、交付和部署过程的开放平台,Docker则可以称为构建一次,到处运行,这就是docker提出的“Build once...

2015-06-14 13:30:04 90411 12

原创 Hbase 布隆过滤器BloomFilter介绍

1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成S...

2015-06-11 09:47:23 50841 3

转载 深入解读HBase2.0新功能之高可用读Region Replica

前言基于时间线一致的高可用读(Timeline-consistent High Available Reads),又称Region replica。其实早在HBase-1.2版本的时候,这个功能就已经开发完毕了,但是还是不太稳定,离生产可用级别还有一段距离,后来社区又陆陆续续修复了一些bug,比如...

2018-06-13 10:05:00 2342 0

转载 从HBase中移除WAL?3D XPoint技术带来的变革

最近,Intel在HBase社区提交了一个标题为"WALLess HBase on Persistent Memory"的问题单,将3D XPoint技术引入到HBase中,并且移除了WAL。虽然方案还没有公布详细的设计细节,本文借机讨论HBase现有架构的一些痛点,以及利用3...

2018-03-06 14:46:38 910 0

转载 Elasticsearch的遍历操作分析

Es低版本(1.x)的scroll操作还有一个变种:scan,其在指定size时真实返回的是size * num_of_shards条数据,比如scan请求返回size=10条数据,而索引本身有5个shard,那么一次scan将返回10*5=50条数据,另外在第一次请求时只执行初始化操作,不会返回...

2018-02-08 10:39:26 1324 0

转载 SparkSql 中外连接查询中的谓词下推规则

SparkSql SparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。Sp...

2018-01-04 19:04:55 3348 1

原创 Hadoop Yarn Capacity调度器之ACL的一个坑

Hadoop Yarn集群使用队列进行任务调度和资源分配,同时支持使用ACL控制队列允许指定用户提交,本文介绍关于yarn capacity scheduler在使用ACL时的一个坑。

2017-10-20 16:29:34 2548 0

原创 Kafka New Consumer API

Kafka New Consumer API基于Kafka自身的group coordination protocol(老版本基于Zookeeper),new Consumer具有以下优势 1、合并过去High Level和Low Level的API,提供一个同时支持group coordina...

2017-05-17 18:07:05 7009 0

转载 关于CentOS 6下Hadoop占用系统态CPU高的处理办法

一次不经意发现Hadoop的系统态CPU使用率很高,然后百度一下居然是个已知问题。     RHEL6优化了内存申请的效率,而且在某些场景下对KVM的性能有明显提升:http://www.linux-kvm.org/wiki/images/9/9e/2010-forum-thp.pdf。 ...

2017-03-26 18:59:57 1832 0

转载 Elasticsearch 学习笔记

最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一...

2017-02-25 22:08:34 1929 0

转载 HBase最佳实践 – 多租户机制

在HBase1.1.0发布之前,HBase同一集群上的用户、表都是平等的,没有优劣之分。这种’大同’社会看起来完美,实际上有很多问题。最棘手的主要有这么两个,其一是某些业务较其他业务重要,需要在资源有限的情况下优先保证核心重要业务的正常运行,其二是有些业务在某些场景下会时常’抽风’,QPS常常居高...

2017-02-20 19:13:40 3740 1

转载 HBase最佳实践-读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较...

2017-02-15 11:45:33 849 0

转载 分散层叠(Fractional Cascading)

最初接触Fractional Cascading这个概念,应该是在计算几何中的Range Tree里。当然,限于篇幅本文并不打算对Range Tree做过深的讨论。但是我们仍然可以对Fractional Cascading这个思想来做一番详细的解读。

2016-12-16 19:52:17 1466 0

转载 java并发包系列---LockSupport

长久以来对线程阻塞与唤醒经常我们会使用object的wait和notify,除了这种方式,java并发包还提供了另外一种方式对线程进行挂起和恢复,它就是并发包子包locks提供的LockSupport。 LockSupport提供了park和unpark进行线程的挂起和恢复操作,来看一个简单...

2016-11-26 11:35:02 5433 3

转载 RDD、DataFrame和DataSet的区别

RDD和DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQ...

2016-08-27 08:21:51 1139 0

原创 【分析】Java Math.random()导致主线程假死

先来看下下面这段测试代码 public class Run { public static void main(String[] args) throws InterruptedException { Thread2 b = new Thread2(); b.setName("...

2016-06-14 14:48:31 1796 0

转载 Yarn公平调度器之DRF算法

在Mesos和YARN中,都用到了dominant resource fairness算法(DRF),它不同于Hadoop基于slot-based实现的fair scheduler和capacity scheduler,论文阅读:Dominant Resource Fairness: Fair A...

2016-06-05 21:13:42 6083 0

原创 Kerberos HBase集群Bulk Load权限问题

我们在使用HBase Bulkload工具进行数据导入时,最后一步会调用LoadIncrementalHFiles的doBulkLoad方法完成HFile move到regionserver的region目录下,但是对于启用Kerberos的HBase/Hadoop集群,就会涉及到严格的权限问题了。

2016-06-03 21:07:45 4349 0

原创 free命令要点

Linux内核会尽可能多的使用内存来提供给cache使用以提高IO性能,所以上面已使用117GB,实际上大部分是被cache占用着,一旦应用需要使用,则内核会立刻释放

2016-05-31 11:33:01 500 0

转载 Kafka深度解析

背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Ka...

2016-05-30 13:42:00 1033 0

转载 Twitter Heron架构介绍

Heron is the direct successor of Apache Storm. From an architectural perspective it is markedly different from Storm but fully backwards compatible ...

2016-05-26 10:17:10 1834 0

转载 JAVA线程池的分析和使用

合理利用线程池能够带来三个好处。第一:降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二:提高响应速度。当任务到达时,任务可以不需要等到线程创建就能立即执行。第三:提高线程的可管理性。线程是稀缺资源,如果无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,使用线程池可以进...

2016-05-25 13:36:35 917 0

原创 Elasticsearch线程池介绍

每个Elasticsearch节点内部都维护着多个线程池,如index、search、suggest、bulk等,用户可以修改线程池的类型和大小,线程池默认大小跟CPU,本文基于最新的Elasticsearch2.3.x

2016-05-24 17:59:08 31180 0

原创 Hadoop HDFS本地存储目录结构解析

HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的...

2016-05-19 11:38:21 26608 1

原创 Hive 临时表

Hive从0.14.0开始提供创建临时表的功能,表只对当前session有效,session退出后,表自动删除。 语法: CREATE TEMPORARY TABLE ... 注意点: 1、如果创建的临时表表名已存在,那么当前session引用到该表名时实际用的是临时表,只有drop或re...

2016-05-11 22:22:07 37358 0

转载 redis3.2新功能--GEO地理位置命令介绍

redis3.2发布rc版本已经有一段时间了,估计RedisConf 2016左右,3.2版本就能release了。3.2版本中增加的最大功能就是对GEO(地理位置)的支持。说起redis的GEO特性,最大的贡献还是咱们中国人。redis作者在对3.2引进新特性的博客中介绍了为什么支持GEO。GE...

2016-05-11 16:45:34 19349 0

转载 Spark性能优化指南——基础篇

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包...

2016-05-10 10:40:43 630 0

转载 大数据场景下linux双网卡bond接入实践

双网卡绑定技术较早在各个主机操作系统引入,如HP-UNIX的APA、IBM的EtherChannel,linux上也有对应bond技术。通过双网卡绑定,一方面利用主备网卡自动切换可以提高网络接入的高可用能力,另一方面双网卡bond部分模式下可以双活的接入,充分利用硬件资源,实现负载均衡,极大的提升...

2016-05-06 22:45:41 7046 0

原创 使用MSCK命令修复Hive表分区

我们平时通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"Recover Partition"的功能。

2016-05-05 15:28:26 30190 0

转载 Storm 1.0.0 发布

Apache Storm 1.0.0 发布了,Apache Storm 的前身是 Twitter Storm 平台,目前已经归于 Apache 基金会管辖。

2016-04-13 17:14:40 1885 0

原创 Yarn NodeManager restart特性

默认Yarn NodeManager重启时会丢失所有当前正在运行的container的状态,这意味着重启后需要重新启动container进程,该特性的作用就是把NM的状态临时保存到本地,重启后从之前的状态恢复运行。

2016-04-09 22:56:44 4669 0

转载 高性能IO模型浅析

服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型。 (2)同步非阻塞IO(Non-blocking IO):默认创建的socket都是阻塞的,非阻塞IO要求socket被设置为NONBLOCK。注意这里所说...

2016-04-06 16:57:12 492 0

转载 Java 7之基础 - 强引用、弱引用、软引用、虚引用

1、强引用(StrongReference)           强引用是使用最普遍的引用。如果一个对象具有强引用,那垃圾回收器绝不会回收它。如下: [java] view plain copy  print? Object o=new O...

2016-03-18 10:59:53 592 0

转载 Kafka生产者性能优化之吞吐量VS延迟

When we are talking about performance of Kafka Producer, we are really talking about two different things: latency: how much time passes from the ...

2016-03-16 14:25:25 7505 0

原创 HDFS缓存集中管理特性:Centralized Cache Management

Hadoop 从2.3.0版本开始,对HDFS加入了一个新特性:集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。

2016-03-09 15:52:39 1227 0

原创 ElasticSearch template机制

索引模版的好处是可以避免每天手动创建映射的重复工作

2016-03-08 09:49:25 4964 1

原创 Storm Metrics机制

Storm提供的Metrics接口可以在topology中的任何位置上报统计指标,在storm内部也使用这个功能提供给Nimbus UI数值,如executes ack数、bolt平均延时、worker堆内存使用量等等。

2016-03-08 09:43:31 2021 0

提示
确定要删除当前文章?
取消 删除