Kafka Stream介绍

Kafka Streams是一套类库,它使得Apache Kafka可以拥有流处理的能力,使用Kafka Stream API进行业务逻辑处理最后可以写回Kakfa或者其他系统中。Kafka Stream中有几个重要的流处理概念:严格区分Event time和Process Time、支持窗口函数...

2016-05-26 17:25:07

阅读数:10595

评论数:0

free命令要点

Linux内核会尽可能多的使用内存来提供给cache使用以提高IO性能,所以上面已使用117GB,实际上大部分是被cache占用着,一旦应用需要使用,则内核会立刻释放

2016-05-31 11:33:01

阅读数:430

评论数:0

Kafka深度解析

背景介绍 Kafka简介   Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Ka...

2016-05-30 13:42:00

阅读数:969

评论数:0

Twitter Heron架构介绍

Heron is the direct successor of Apache Storm. From an architectural perspective it is markedly different from Storm but fully backwards compatible ...

2016-05-26 10:17:10

阅读数:1519

评论数:0

JAVA线程池的分析和使用

合理利用线程池能够带来三个好处。第一:降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二:提高响应速度。当任务到达时,任务可以不需要等到线程创建就能立即执行。第三:提高线程的可管理性。线程是稀缺资源,如果无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,使用线程池可以进...

2016-05-25 13:36:35

阅读数:859

评论数:0

Elasticsearch线程池介绍

每个Elasticsearch节点内部都维护着多个线程池,如index、search、suggest、bulk等,用户可以修改线程池的类型和大小,线程池默认大小跟CPU,本文基于最新的Elasticsearch2.3.x

2016-05-24 17:59:08

阅读数:17624

评论数:0

Hadoop HDFS本地存储目录结构解析

HDFS metadata以树状结构存储整个HDFS上的文件和目录,以及相应的权限、配额和副本因子(replication factor)等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构,也就是hdfs-site.xml中配置的...

2016-05-19 11:38:21

阅读数:19261

评论数:1

Hive 临时表

Hive从0.14.0开始提供创建临时表的功能,表只对当前session有效,session退出后,表自动删除。 语法: CREATE TEMPORARY TABLE ... 注意点: 1、如果创建的临时表表名已存在,那么当前session引用到该表名时实际用的是临时表,只有drop或re...

2016-05-11 22:22:07

阅读数:17988

评论数:0

redis3.2新功能--GEO地理位置命令介绍

redis3.2发布rc版本已经有一段时间了,估计RedisConf 2016左右,3.2版本就能release了。3.2版本中增加的最大功能就是对GEO(地理位置)的支持。说起redis的GEO特性,最大的贡献还是咱们中国人。redis作者在对3.2引进新特性的博客中介绍了为什么支持GEO。GE...

2016-05-11 16:45:34

阅读数:15753

评论数:0

Spark性能优化指南——基础篇

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包...

2016-05-10 10:40:43

阅读数:557

评论数:0

大数据场景下linux双网卡bond接入实践

双网卡绑定技术较早在各个主机操作系统引入,如HP-UNIX的APA、IBM的EtherChannel,linux上也有对应bond技术。通过双网卡绑定,一方面利用主备网卡自动切换可以提高网络接入的高可用能力,另一方面双网卡bond部分模式下可以双活的接入,充分利用硬件资源,实现负载均衡,极大的提升...

2016-05-06 22:45:41

阅读数:5338

评论数:0

使用MSCK命令修复Hive表分区

我们平时通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"Recover Partition"的功能。

2016-05-05 15:28:26

阅读数:13655

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭