kafka
文章平均质量分 92
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
Kafka的assign和subscribe订阅模式和手动提交偏移量
一、前言:使用Apache Kafka消费者组时,有一个为消费者分配对应分区partition的过程,我们可以使用“自动”subscribe和“手动”assign的方式。KafkaConsumer.subscribe():为consumer自动分配partition,有内部算法保证topic-partition以最优的方式均匀分配给同group下的不同consumer。KafkaConsu...原创 2020-04-12 22:31:35 · 8822 阅读 · 1 评论 -
kafka遇到的坑
一、offset is out of range当手动设置从指定的偏移量消费数据的时候,有时候指定的偏移量超出范围会报这个错:2020-03-31 12:34:13.394 INFO 94001 --- [ConsumerExample] o.a.k.c.consumer.internals.Fetcher : Fetch offset 228668 is out of rang...原创 2020-04-06 17:21:51 · 4770 阅读 · 1 评论 -
Flume或Kafka和Elasticsearch整合
前言:我这里是在Centos7.2 64位单机做的测试安装elasticsearch的时候不应该安装在root用户下,否则启动会报错:Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. at org.elasticsearch.bootstrap.原创 2017-10-11 15:44:43 · 3970 阅读 · 0 评论 -
Kafka使用Java进行Producer和Consumer编程
比较旧的kafka_2.10-0.8.2.0版本:(参考自http://chengjianxiaoxue.iteye.com/blog/2190488)生产者代码:import java.util.Properties; import java.util.concurrent.TimeUnit; import kafka.javaapi.producer.Producer; im...原创 2017-10-30 20:06:54 · 19791 阅读 · 2 评论 -
kafka监控命令kafka-run-class.sh查看消费了多少条数据
kafka自带了很多工具类,在源码kafka.tools里可以看到:源码包下载地址:http://archive.apache.org/dist/kafka/这些类该如何使用呢,kafka的设计者早就为我们考虑到了,在${KAFKA_HOME}/bin下,有很多的脚本,其中有一个kafka-run-class.sh,通过这个脚本,可以调用其中的tools的部分功能,如调用kafk...原创 2017-06-28 16:53:20 · 48237 阅读 · 3 评论 -
Kafka配置说明-server.properties
以下是kafka_2.10-0.8.2.0的server.properties文件:############################# Server Basics ############################## The id of the broker. This must be set to a unique integer for each broke原创 2017-09-27 17:43:23 · 5533 阅读 · 3 评论 -
Kafka读取__consumer_offsets和Kafka 0.11客户端管理工具AdminClient
本文绝大部分内容参考自:http://www.cnblogs.com/huxi2b/p/6061110.html和http://www.cnblogs.com/huxi2b/p/7183219.html一、Kafka读取__consumer_offsets注意:该实验受限于kafka版本,我在kafka_2.11-0.9.0.1和kafka_2.10-0.10.1.0中都成功了,而原创 2017-10-09 17:57:53 · 3645 阅读 · 0 评论 -
kafka安装及删除Topic
安装Kafka:我们使用3台机器搭建Kafka集群:192.168.4.142 h40192.168.4.143 h41192.168.4.144 h42kafka_2.10-0.8.2.0下载地址:http://mirror.bit.edu.cn/apache/kafka/0.8.2.0/kafka_2.10-0.8.2.0.tgz我安装的这个版本原创 2017-08-04 16:52:07 · 3874 阅读 · 0 评论 -
利用Flume拦截器(interceptors)实现Kafka Sink的自定义规则多分区写入
本文大部分内容来自:http://lxw1234.com/archives/2015/11/547.htm,非常感谢原作者我们目前的业务场景如下:前端的5台日志收集服务器产生网站日志,使用Flume实时收集日志,并将日志发送至Kafka,然后Kafka中的日志一方面可以导入到HDFS,另一方面供实时计算模块使用。前面的文章《Kafka分区机制介绍与示例》介绍过Kafka的分区机原创 2017-08-03 17:37:13 · 3519 阅读 · 2 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h原创 2017-08-02 15:23:58 · 3778 阅读 · 0 评论 -
flume+kafka+storm+hdfs整合
基础环境:Redhat 5.5 64位(我这里是三台虚拟机h40,h41,h42)myeclipse 8.5jdk1.7.0_25Python-2.7.12zookeeper-3.4.5集群hadoop-2.6.0集群apache-storm-0.9.5集群kafka_2.10-0.8.2.0集群apache-flume-1.6.0-bin(h40主节点装就行)安装hadoop集群请参考:http...原创 2017-05-23 11:55:03 · 3812 阅读 · 0 评论 -
kafka+storm+hbase整合试验(Wordcount)
kafka+storm+hbase整合:kafka作为分布式消息系统,实时消息系统,有生产者和消费者;storm作为大数据的实时处理系统;hbase是apache hadoop 的数据库,其具有高效的读写性能!这里把kafka生产的数据作为storm的源头spout来消费,经过bolt处理把结果保存到hbase。基础环境:Redhat 5.5 64位(我这里是三台虚拟机h40,h41,h42)my...原创 2017-05-19 16:26:32 · 6980 阅读 · 3 评论 -
Spark Streaming实战对论坛网站动态行为pv,uv,注册人数,跳出率的多维度分析
论坛数据运行代码自动生成,该生成的数据会作为Producer的方式发送给Kafka,然后SparkStreaming程序会从Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析数据格式如下:date:日期,格式为yyyy-MM-ddtimestamp:时间戳userID:用户IDpageID:页面IDchanelID:板块的IDaction原创 2017-07-06 17:41:43 · 6632 阅读 · 1 评论