排序:
默认
按更新时间
按访问量

Kafka Stream介绍

Kafka Streams是一套类库,它使得Apache Kafka可以拥有流处理的能力,使用Kafka Stream API进行业务逻辑处理最后可以写回Kakfa或者其他系统中。Kafka Stream中有几个重要的流处理概念:严格区分Event time和Process Time、支持窗口函数...

2016-05-26 17:25:07

阅读数:9879

评论数:0

实战Spark分布式SQL引擎

Spark SQL除了使用spark-sql命令进入交互式执行环境之外,还能够使用JDBC/ODBC或命令行接口进行分布式查询,在这个模式下,终端用户或应用可以直接和Spark SQL进行交互式SQL查询而不需要写任何scala代码。

2015-06-24 20:57:56

阅读数:3335

评论数:0

kubernetes实战-基于redis和docker的留言簿案例

本案例基于Kubernetes和Docker,其中包括 1、web前端 2、redis master 其中web前端通过javascript redis api和redis master交互

2015-06-22 19:41:07

阅读数:13345

评论数:6

Docker入门实战

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上。 Docker是一个重新定义了程序开发测试、交付和部署过程的开放平台,Docker则可以称为构建一次,到处运行,这就是docker提出的“Build once...

2015-06-14 13:30:04

阅读数:87532

评论数:13

Hbase 布隆过滤器BloomFilter介绍

1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成S...

2015-06-11 09:47:23

阅读数:11425

评论数:0

Hadoop Yarn Capacity调度器之ACL的一个坑

Hadoop Yarn集群使用队列进行任务调度和资源分配,同时支持使用ACL控制队列允许指定用户提交,本文介绍关于yarn capacity scheduler在使用ACL时的一个坑。

2017-10-20 16:29:34

阅读数:582

评论数:0

Kafka New Consumer API

Kafka New Consumer API基于Kafka自身的group coordination protocol(老版本基于Zookeeper),new Consumer具有以下优势 1、合并过去High Level和Low Level的API,提供一个同时支持group coordinat...

2017-05-17 18:07:05

阅读数:3319

评论数:0

【分析】Java Math.random()导致主线程假死

先来看下下面这段测试代码 public class Run { public static void main(String[] args) throws InterruptedException { Thread2 b = new Thread2(); b.setName("...

2016-06-14 14:48:31

阅读数:1115

评论数:0

Kerberos HBase集群Bulk Load权限问题

我们在使用HBase Bulkload工具进行数据导入时,最后一步会调用LoadIncrementalHFiles的doBulkLoad方法完成HFile move到regionserver的region目录下,但是对于启用Kerberos的HBase/Hadoop集群,就会涉及到严格的权限问题了。

2016-06-03 21:07:45

阅读数:2203

评论数:0

free命令要点

Linux内核会尽可能多的使用内存来提供给cache使用以提高IO性能,所以上面已使用117GB,实际上大部分是被cache占用着,一旦应用需要使用,则内核会立刻释放

2016-05-31 11:33:01

阅读数:428

评论数:0

Elasticsearch线程池介绍

每个Elasticsearch节点内部都维护着多个线程池,如index、search、suggest、bulk等,用户可以修改线程池的类型和大小,线程池默认大小跟CPU,本文基于最新的Elasticsearch2.3.x

2016-05-24 17:59:08

阅读数:15863

评论数:0

Hadoop HDFS本地存储目录结构解析

HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的...

2016-05-19 11:38:21

阅读数:17403

评论数:1

Hive 临时表

Hive从0.14.0开始提供创建临时表的功能,表只对当前session有效,session退出后,表自动删除。 语法: CREATE TEMPORARY TABLE ... 注意点: 1、如果创建的临时表表名已存在,那么当前session引用到该表名时实际用的是临时表,只有drop或re...

2016-05-11 22:22:07

阅读数:15518

评论数:0

使用MSCK命令修复Hive表分区

我们平时通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"Recover Partition"的功能。

2016-05-05 15:28:26

阅读数:11885

评论数:0

Yarn NodeManager restart特性

默认Yarn NodeManager重启时会丢失所有当前正在运行的container的状态,这意味着重启后需要重新启动container进程,该特性的作用就是把NM的状态临时保存到本地,重启后从之前的状态恢复运行。

2016-04-09 22:56:44

阅读数:3116

评论数:0

HDFS缓存集中管理特性:Centralized Cache Management

Hadoop 从2.3.0版本开始,对HDFS加入了一个新特性:集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。

2016-03-09 15:52:39

阅读数:1039

评论数:0

ElasticSearch template机制

索引模版的好处是可以避免每天手动创建映射的重复工作

2016-03-08 09:49:25

阅读数:2438

评论数:0

Storm Metrics机制

Storm提供的Metrics接口可以在topology中的任何位置上报统计指标,在storm内部也使用这个功能提供给Nimbus UI数值,如executes ack数、bolt平均延时、worker堆内存使用量等等。

2016-03-08 09:43:31

阅读数:1531

评论数:0

Flink on Yarn快速入门

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级...

2015-12-30 11:16:19

阅读数:4910

评论数:0

heartbeat实现Nginx高可用

Heartbeat是著名HA项目,Heartbeat在3.0之后分拆为Heartbeat和Pacemaker 两个各自独立项目。Pacemaker在后续发展中使用Corosync作为消息层,和Corosync紧密结合,同时也保留Heartbeat作为可选的消息层。不管heartbeat,还是cor...

2015-08-04 15:12:11

阅读数:8155

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭