![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kafka
文章平均质量分 89
murphyZ
这个作者很懒,什么都没留下…
展开
-
Kafka集群组件相关知识(重要)
1、kafka概念kafka cluster集群,是开源的,分布式的,高吞吐量的消息中间件(消息系统),可以有多个broker组成,一个broker作为一个实例(节点),kafka集群可以保存多种类型的数据,是由多个topic进行分类的。2、kafka cluster组件Producer:消息生产者,就是向kafka broker的多个topic发消息的客户端(client);1).生产者...原创 2019-03-01 15:24:01 · 608 阅读 · 0 评论 -
JMS(了解)
2、JMS是什么(了解)2.1、JMS的基础 JMS是什么:JMS是Java提供的一套技术规范JMS干什么用:用来异构系统 集成通信,缓解系统瓶颈,提高系统的伸缩性增强系统用户体验,使得系统模块化和组件化变得可行并更加灵活通过什么方式:生产消费者模式(生产者、服务器、消费者)jdk,kafka,activemq……2.2、JMS消息传输模型l 点对点模式**(一对一...原创 2019-03-04 16:20:19 · 242 阅读 · 0 评论 -
二、kafka消费模型---Receiver和Direct方式讲解
7.1、Receiver ApproachReceiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark Executor内存中的,然后Spark Streaming启动的job会去处理那些数据然而这种方式很可能会丢失数据,如果要启用高可靠机制,让数据零丢失,就必须启动Spark Streaming预写日志机...原创 2019-03-06 20:21:59 · 1170 阅读 · 0 评论 -
spark streaming + kafka整合二(Direct Approach (No Receiver))
7.2、Direct Approach (No Receiver)它会周期性的查询kafka,来获取每个topic + partition的最新offset,从而定义每一个batch的offset的范围。当处理数据的job启动时,就会使用kafka简单的消费者API来获取kafka指定offset的范围的数据。1)、它简化了并行读取:如果要读取多个partition,不需要创建多个输入DStr...原创 2019-03-06 20:13:46 · 283 阅读 · 0 评论 -
五、kafka消息传递语义
1、分类:消息传递语义有:至少一次语义(at-least-once)、最多一次语义(at-most-once)、一次仅一次语义(exactly-once)。其中at-least-once和at-most-once如下图:2、详解exactly-once:1. 幂等写入( idempotent writes)需要设置好唯一主键等,比如用redis、mysql再比如每次往一个目录...原创 2019-03-06 19:39:57 · 840 阅读 · 0 评论 -
六、Spark Streaming消费数据反写Kafka
需求:1、flume将socket流数据采集到kafka2、streaming读取kafka的数据进行清洗3、将清洗后的数据再次放到kafka清洗后的结果数据为:houseid|gathertime|srcip:srcport|destip:destport|urlspark streaming消费数据反写Kafka代码:import java.utilimport java...原创 2019-03-06 17:30:14 · 627 阅读 · 1 评论 -
三、Kafka Offset 管理
主要包括以下:(大方面)1、使用外部存储保存offset2、不保存offset1、使用外部存储保存offset包括Checkpoints、ZooKeeper、HBase 、Kafka、HDFS等模型展示:详细介绍:使用外部存储保存offset博文链接:https://blog.csdn.net/murphyZ/article/details/882414582、Kafka Off...原创 2019-03-06 17:22:36 · 513 阅读 · 0 评论 -
kafka管理offset方式之使用外部存储保存offset
1、Kafka Offset 管理–Checkpoint启用Spark Streaming的checkpoint是存储偏移量最简单的方法。流式checkpoint专门用于保存应用程序的状态, 比如保存在HDFS上,在故障时能恢复。Spark Streaming的checkpoint无法跨越应用程序进行恢复。Spark 升级也将导致无法恢复。在关键生产应用, 不建议使用spark检查点...原创 2019-03-06 17:21:52 · 2764 阅读 · 0 评论 -
saprk streaming + kafka整合一(Receiver -based Approach)
SparkStreaming之Kafka的Receiver和Direct方式讲解7.1、Receiver ApproachReceiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark Executor内存中的,然后Spark Streaming启动的job会去处理那些数据然而这种方式很可能会丢失数据,如果...原创 2019-03-06 15:56:14 · 444 阅读 · 0 评论 -
四、Kafka使用中的常见问题(重要)
1、2、3、4、5、6、7、问题 1、如果想消费已经被消费过的数据,怎么去做?分析: Consumer底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个gr...原创 2019-03-06 10:15:27 · 519 阅读 · 0 评论 -
七、kafka常用操作命令
1、依次在各节点上启动kafkanohup bin/kafka-server-start.sh config/server.properties &2、Kafka常用操作命令 查看当前服务器中的所有topicbin/kafka-topics.sh --list --zookeeper node1:2181 创建topicbin/kafka-topics.sh --crea...原创 2019-03-06 09:21:42 · 228 阅读 · 0 评论 -
为什么需要消息队列(重要)
3、为什么需要消息队列(重要、了解)消息系统的核心作用就是三点:解耦,异步和并行以用户注册的案列来说明消息系统的作用3.1、用户注册的一般流程![图3-1-用户注册流程.jpg](file:///C:/Users/16530/AppData/Local/Temp/msohtmlclip1/01/clip_image001.jpg)问题:随着后端流程越来越多,每步流程都需要额外的耗费很多时...原创 2019-03-04 16:37:11 · 240 阅读 · 0 评论