消息中间件-Kafka
五柳-先生
宅边有五柳树,因以为号焉。
展开
-
apache kafka监控系列-KafkaOffsetMonitor
概览最近kafka server消息服务上线了,基于jmx指标参数也写到zabbix中了,但总觉得缺少点什么东西,可视化可操作的界面。zabbix中数据比较分散,不能集中看整个集群情况。或者一个cluster中broker列表,自己写web-console比较耗时耗力,用原型工具画了一些管理界面东西,关键自己也不前端方面技术,这方面比较薄弱。这不开源社区提供了kafka的web管理平台Ka转载 2017-02-04 17:57:48 · 995 阅读 · 0 评论 -
kafka manager安装
项目信息https://github.com/yahoo/kafka-manager这个项目比 https://github.com/claudemamo/kafka-web-console 要好用一些,显示的信息更加丰富,kafka-manager本身可以是一个集群。不过kafka-manager也没有权限管理功能。Kafka web console的安装可以参考转载 2016-01-26 16:36:25 · 527 阅读 · 0 评论 -
Windows平台下sbt的安装设置
首先到http://www.scala-sbt.org/release/docs/Getting-Started/Setup.html下载windows的sbt包,zip,tar.gz都行。将下载的包解压到你指定的目录,我一般是解压到d:\dev\sbt目录,d:\dev下是日常工作中所用到的开发工具软件,比如eclipse、jdk、maven等等。Windows的sbt包解压后,转载 2016-01-25 20:52:54 · 847 阅读 · 0 评论 -
Kafka实战-KafkaOffsetMonitor
1.概述 前面给大家介绍了Kafka的背景以及一些应用场景,并附带上演示了Kafka的简单示例。然后,在开发的过程当中,我们会发现一些问题,那就是消息的监控情况。虽然,在启动Kafka的相关服务后,我们生产消息和消费消息会在终端控制台显示这些记录信息,但是,这样始终不够友好,而且,在实际开发中,我们不会有权限去一直观看终端控制台,那么今天就为大家来介绍Kafka的一个监控系统——Kafk转载 2016-01-25 20:05:30 · 763 阅读 · 0 评论 -
apache kafka系列之server.properties配置文件参数说明
每个kafka broker中配置文件server.properties默认必须配置的属性如下:[java] view plaincopybroker.id=0 num.network.threads=2 num.io.threads=8 socket.send.buffer.bytes=1048576 socket.转载 2016-01-25 15:27:46 · 557 阅读 · 0 评论 -
apache kafka源代码工程环境搭建(IDEA)
1.gradle安装gradle安装2.下载apache kafka源代码apache kafka下载3.用gradle构建产生IDEA工程文件先装好idea的scala插件,不然构建时就会自动下载,由于没有国内镜像,速度会很慢。lizhitao@users-MacBook-Pro:~/Downloads/kafka_2.10-0.8.1$ gradle idea转载 2016-01-25 15:15:32 · 974 阅读 · 0 评论 -
Windows平台搭建Kafka源代码开发环境(Eclipse版本)
最近在研究Kafka源代码,需要自己搭建一个开发环境。官网上给出的提示略显简单,照着做了一遍也碰到了一些问题。特此记录下来。开发环境: Oracle Java 1.7_u71 + Eclipse 4.4.1 + Scala 2.10.4 + Gradle 2.3 + Kafka 0.8.2.1一、Gradle安装配置 Kafka代码自0.8.x之后就使用Gradle来进行转载 2016-01-25 14:55:24 · 799 阅读 · 0 评论 -
Kafka Java API 之Producer源码解析
原帖地址:http://blog.csdn.net/xeseo/article/details/18315451从我的OneNote copy过来,格式似乎有点问题,懒得整了。将就着看吧,各位。Kafka提供了Producer类作为java producer的api,该类有sync和async两种发送方式。 默认是sync方式,即producer的调用类在消息真转载 2015-11-20 10:08:32 · 1232 阅读 · 0 评论 -
使用JAXP进行DOM解析( DocumentBuilderFactory、DocumentBuilder、Document)
1.javax.xml.parsers 包中的DocumentBuilderFactory用于创建DOM模式的解析器对象 , DocumentBuilderFactory是一个抽象工厂类,它不能直接实例化,但该类提供了一个newInstance方法 ,这个方法会根据本地平台默认安装的解析器,自动创建一个工厂的对象并返回2.调用 DocumentBuilderFactory.newInsta转载 2015-11-24 20:59:01 · 399 阅读 · 0 评论 -
ZooKeepr监控
在公司内部,有不少应用已经强依赖zookeeper,zookeeper的工作状态直接影响它们的正常工作。目前开源世界中暂没有一个比较成熟的zookeeper-monitor, 于是开始zookeeper监控这块工作。 目前zookeeper-monitor能做哪些事情,讲到这个,首先来看看哪些因素对zookeeper正常工作比较大的影响:1. 用于zookeeper写日志的转载 2015-11-25 19:33:35 · 730 阅读 · 0 评论 -
Kafka文件存储机制那些事
1.前言一个商业化消息队列的性能好坏,其文件存储机制设计是衡量一个消息队列服务技术水平和最关键指标之一。下面将从Kafka文件存储机制和物理结构角度,分析Kafka是如何实现高效文件存储,及实际应用效果。2.Kafka文件存储机制Kafka部分名词解释如下:Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Ka转载 2015-11-24 19:49:46 · 414 阅读 · 0 评论 -
基于dropwizard/metrics ,kafka,zabbix构建应用统计数据收集展示系统
想要实现的功能应用可以用少量的代码,实现统计某类数据的功能统计的数据可以很方便地展示metricsmetrics,按字面意思是度量,指标。举具体的例子来说,一个web服务器:一分钟内请求多少次?平均请求耗时多长?最长请求时间?某个方法的被调用次数,时长?以缓存为例:平均查询缓存时间?缓存获取不命中的次数/比例?以jvm为例:GC的次数?Old S转载 2016-01-26 16:51:28 · 970 阅读 · 0 评论 -
开源日志系统比较
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进转载 2016-01-26 20:08:16 · 439 阅读 · 0 评论 -
Apache Kafka监控之KafkaOffsetMonitor
当你将Kafka集群部署之后,你可能需要知道当前消息队列的增长以及消费情况,这时候你就得需要监控它。今天我这里推荐两款Kafka开源的监控系统:KafkaOffsetMonitor和Kafka Web Console。 KafkaOffsetMonitor是用来实时监控Kafka集群的consumers以及它们在partition中的offset(偏移量)。 你可以浏览当前的消息消转载 2015-12-09 16:50:55 · 1175 阅读 · 0 评论 -
Apache Kafka:下一代分布式消息系统
简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自转载 2014-09-20 12:09:47 · 844 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这个的时候,跟转载 2014-09-20 23:43:01 · 719 阅读 · 0 评论 -
kafka2.9.2的伪分布式集群安装和demo(java api)测试
已有 308 次阅读2014-8-5 14:15 |个人分类:网络技术| ubuntu, kafka, zookeeper, 大数据, LinkedIn---------------------------------------博文作者:迦壹博客地址:http://idoall.org/home.php?mod=space&uid=1&do=blog&id=547转载 2014-09-20 23:48:07 · 1487 阅读 · 0 评论 -
如何构建安全的Kafka集群
Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支持与Kafka集成,其中Spark Streaming作为后端流引擎配合Kafka作为前端消息系统正成为当前流处理系统的主流架构之一。然而,当下越来越多的安全漏洞、数据泄露等问题的爆发,安转载 2016-02-27 15:04:05 · 2388 阅读 · 0 评论 -
Kafka:如何做到1秒发布450万+条消息
LinkedIn在2011年7月开始大规模使用Kafka,当时Kafka每天大约处理10亿条消息,这一数据在2012年达到了每天200亿条,而到了2013年7月,每天处理的消息达到了2000亿条。在几个月前,他们的最新记录是每天利用Kafka处理的消息超过1万亿条,在峰值时每秒钟会发布超过450万条消息,每周处理的信息是1.34 PB。每条消息平均会被4个应用处理。在过去的四年中,实现了1200倍转载 2016-02-27 14:59:34 · 4457 阅读 · 0 评论 -
Kafka管理工具介绍
Kafka内部提供了许多管理脚本,这些脚本都放在$KAFKA_HOME/bin目录下,而这些类的实现都是放在源码的kafka/core/src/main/scala/kafka/tools/路径下。Consumer Offset Checker Consumer Offset Checker主要是运行kafka.tools.ConsumerOffsetChecker类,对应的脚本转载 2016-04-05 10:36:28 · 11087 阅读 · 0 评论 -
CAP原理和BASE思想
分布式领域CAP理论,Consistency(一致性), 数据一致更新,所有数据变动都是同步的Availability(可用性), 好的响应性能Partition tolerance(分区容错性) 可靠性定理:任何分布式系统只可同时满足二点,没法三者兼顾。忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。关系数据库的ACID模型拥有转载 2016-02-23 20:31:10 · 495 阅读 · 0 评论 -
Spark Streaming和Kafka整合是如何保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); 3、启用了WAL特性(Write ahead lo转载 2016-03-03 11:27:47 · 2614 阅读 · 0 评论 -
Spark Streaming和Kafka整合开发指南(二)
本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的偏移量,再根据定义的偏移量范围在每个batch里面处理数据。当作业需要处理的数据来临时,spark通过调用Kafka的简单消费者API读取一定范围的数据。这个特性目前还处于试验阶段,而且仅仅在转载 2015-12-09 17:30:48 · 786 阅读 · 0 评论 -
Apache Kafka监控之Kafka Web Console
昨天在《Apache Kafka监控之KafkaOffsetMonitor》介绍了KafkaOffsetMonitor的编译以及配置等内容,今天继续来介绍Kafka的第二种监控系统Kafka Web Console。他也是一款开源的系统,源码的地址在https://github.com/claudemamo/kafka-web-console中。Kafka Web Console也是用Scal转载 2015-12-09 16:54:51 · 771 阅读 · 0 评论 -
kafka java 生产消费程序demo示例
kafka是吞吐量巨大的一个消息系统,它是用scala写的,和普通的消息的生产消费还有所不同,写了个demo程序供大家参考。kafka的安装请参考官方文档。首先我们需要新建一个maven项目,然后在pom中引用kafka jar包,引用依赖如下: org.apache.kafka kafka_2.10 0.8.0转载 2015-11-17 15:59:41 · 982 阅读 · 0 评论 -
kafka详解一、Kafka简介
问题导读1.Kafka有何特性?2.Kafka有哪些组件?背景: 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战:如何收集这些巨大的信息如何分析它如何及时做到如上两点 以上几个挑战形成了一个业务需求模型,即生产者转载 2015-11-17 21:28:12 · 1943 阅读 · 0 评论 -
apache kafka源码分析-Producer分析
问题导读1.Kafka提供了Producer类作为java producer的api,此类有几种发送方式?2.总结调用producer.send方法包含哪些流程?3.Producer难以理解的在什么地方?producer的发送方式剖析Kafka提供了Producer类作为java producer的api,该类有sync和async两种发送方式。sy转载 2015-11-17 21:08:07 · 664 阅读 · 0 评论 -
kafka详解四:Kafka的设计思想、理念
1.Kafka的设计基本思想是什么?2.Kafka消息转运过程中是如何确保消息的可靠性的?本节主要从整体角度介绍Kafka的设计思想,其中的每个理念都可以深入研究,以后我可能会发专题文章做深入介绍,在这里只做较概括的描述以便大家更好的理解Kafka的独特之处。本节主要涉及到如下主要内容:Kafka设计基本思想Kafka中的数据压缩转载 2015-11-17 21:45:52 · 767 阅读 · 0 评论 -
Spark深度解析(2)
问题导读1、什么是Consumer Rebalance?2、如何理解消息Deliver guarantee?3、如何使用producer性能测试工具?本文接前篇:Kafka深度解析(1)Consumer Rebalance (本节所讲述内容均基于Kafka consumer high level API) Kafka保证同一consu转载 2015-11-17 22:12:02 · 639 阅读 · 0 评论 -
Kafka详解二、如何配置Kafka集群
问题导读1.Kafka有哪几种配制方法?2.如何启动一个Consumer实例来消费消息?Kafka集群配置比较简单,为了更好的让大家理解,在这里要分别介绍下面三种配置单节点:一个broker的集群单节点:多个broker的集群多节点:多broker集群一、单节点单broker实例的配置转载 2015-11-17 21:35:46 · 1146 阅读 · 0 评论 -
Kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息是如何保存的?4.partitions设计的目的的根本原因是什么? 一、入门 1、简介 Kafka is a distrib转载 2015-11-17 17:08:14 · 658 阅读 · 0 评论 -
Kafka 分布式环境搭建
这篇文章将介绍如何搭建kafka环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。Kafka的中文文档并不多,所以我们尽量详细点儿写。要交会你搭建分布式其实很简单,手把手的教程大不了我录个视频就好了,可我觉得那不是走这条路的方 式。只有真正了解转载 2015-11-17 17:01:38 · 437 阅读 · 0 评论 -
Kafka深度解析
背景介绍Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输同时支持离线数据转载 2015-11-17 17:51:40 · 674 阅读 · 0 评论 -
快速理解Kafka分布式消息队列框架
==是什么 == 简单的说,Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue) 目标Scope(解决什么问题) kafka开发的主要初衷目标是构建一个用来处理海量日志,用户行为和网站运营统计等的数据处理框架。在结合了数据挖掘,行为分析,运营监控等需求的情况下,需要能够满足各种实时在线和批量离线处理应用场合对转载 2015-11-17 17:47:08 · 514 阅读 · 0 评论 -
Yahoo开源的Apache Kafka管理工具:Kafka Manager
Apache Kafka的管理工具。Kafka在雅虎内部被很多团队使用,媒体团队用它做实时分析流水线,可以处理高达20Gbps(压缩数据)的峰值带宽。 为了简化开发者和服务工程师维护Kafka集群的工作,构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况转载 2015-11-17 17:40:34 · 693 阅读 · 0 评论 -
Spark Streaming和Kafka整合开发指南(一)
Apache Kafka是一个分布式的消息发布-订阅系统。可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的。本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将会介绍两种方法:(1)、使用Receivers和Kafka高层次的API;(2)、使用Direct API,这是使用低层次的KafkaAPI,并没有使用到Receivers,是Spark 1.3.转载 2015-12-09 17:27:58 · 924 阅读 · 0 评论 -
Apache Kafka-0.8.1.1源码编译
经过近一个月时间,终于差不多将之前在Flume 0.9.4上面编写的source、sink等插件迁移到Flume-ng 1.5.0,包括了将Flume 0.9.4上面的TailSource、TailDirSource等插件的迁移(当然,我们加入了许多新的功能,比如故障恢复、日志的断点续传、按块发送日志以及每个一定的时间轮询发送日志而不是等一个日志发送完才发送另外一个日志)。现在我们需要将Flu转载 2015-12-09 16:43:37 · 1292 阅读 · 0 评论 -
Kafka深度解析(1)
问题导读1、什么是Kafka,如何深入理解?2、传统的message queue都存在哪些弊端?3、为什么要用Message Queue?摘要Kafka是一种分布式的,基于发布/订阅的消息系统。本文主要介绍Kafka的设计理念,实现细节以及benchmark test背景介绍Kafka简介Kafka是一种分布式的,转载 2015-11-17 22:06:12 · 781 阅读 · 0 评论 -
kafka文档: 配置选项翻译
问题导读1.broker.id的作用是什么?2.max.message.bytes表示什么含义?3.group.id是用来标识什么的?来源:http://kafka.apache.org/documentation.html#configuration3. 配置项Kafka在配置文件中使用key-value方式进行属性配置转载 2015-11-17 22:19:07 · 2222 阅读 · 0 评论 -
Kafka设计解析(二)- Kafka High Availability (上)
问题导读1.kafka从哪个版本后有了HA?2.Kafka为何需要High Available?3.如何将所有Replica均匀分布到整个集群?4.HA相关ZooKeeper结构有什么变化?5.broker failover包含哪些过程?Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Bro转载 2015-11-17 22:29:36 · 374 阅读 · 0 评论