![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kafka
小东升职记
人生陆远只有忘的甘静才会有江莱。
展开
-
Kafka高并发原理概述
https://www.cnblogs.com/mybxy/p/10494087.html转载 2020-08-12 14:48:54 · 427 阅读 · 0 评论 -
Spark Kafka 基于Direct自己管理offset
1、SparkStreaming中使用Kafka的createDirectStream自己管理offset在Spark Streaming中,目前官方推荐的方式是createDirectStream方式,但是这种方式就需要我们自己去管理offset。目前的资料大部分是通过scala来实现的,并且实现套路都是一样的,我自己根据scala的实现改成了Java的方式,后面又相应的实现。Direct Approach 更符合Spark的思维。我们知道,RDD的概念是一个不变的,分区的数据集合。我们将kafka转载 2020-08-04 10:09:10 · 339 阅读 · 0 评论 -
Kafka面试题系列(基础篇)
Kafka的用途有哪些?使用场景如何? 消息系统:Kafka 和传统的消息系统(也称作消息中间件)都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。 存储系统:Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于 Kafka 的消息持久化功能和多副本机制,我们可以把 Kafka 作为长期的数据存储系统来使用,只需要把对应的数据保转载 2020-07-23 13:20:37 · 976 阅读 · 0 评论 -
Kafka生产者ack机制剖析
Kafka有两个很重要的配置参数,acks与min.insync.replicas.其中acks是producer的配置参数,min.insync.replicas是Broker端的配置参数,这两个参数对于生产者不丢失数据起到了很大的作用.接下来,本文会以图示的方式讲解这两个参数的含义和使用方式。通过本文,你可以了解到:✍Kafka的分区副本✍什么是同步副本(In-sync replicas)✍什么是acks确认机制✍什么是最小同步副本✍ack=all与最小同步副本是如何发挥作用转载 2020-07-17 13:35:09 · 1041 阅读 · 1 评论 -
sparkStreaming 实现kafka offset自定义保存
KafkaUtils.createDirectStream区别Receiver接收数据,这种方式定期地从kafka的topic+partition中查询最新的偏移量,再根据偏移量范围在每个batch里面处理数据,使用的是kafka的简单消费者api优点:A、 简化并行,不需要多个kafka输入流,该方法将会创建和kafka分区一样的rdd个数,而且会从kafka并行读取。B、高效,...原创 2019-11-25 13:34:51 · 683 阅读 · 1 评论 -
kafka 自定义存储offset 到mysql中
kafka0.9版本之前,offset存储在zookeeper,0.9版本以及之后,默认offset存储在kafka的一个内置的topic中。除此之外,kafka还可以选择自定义存储offset。offset的维护是相当繁琐的,因为需要考虑到消费者的Rebalance。当有新的消费者加入消费者组、已有的消费者推出消费者组或者锁订阅的主题的分区发生变化,就会触发到分区的重新分区,重新分区的过...原创 2019-11-22 15:01:32 · 2722 阅读 · 4 评论 -
Filebeat+Kafka+Logstash+ElasticSearch+Kibana搭建完整版
https://www.cnblogs.com/jiashengmei/p/8857053.html转载 2019-10-10 10:40:52 · 186 阅读 · 0 评论 -
KafkaOffsetMonitor0.4.6安装使用
https://blog.csdn.net/guang564610/article/details/80067011原创 2019-06-14 17:20:53 · 506 阅读 · 0 评论 -
kafka web页面监控KafkaOffsetMonitor
https://blog.csdn.net/qq_20641565/article/details/72897666转载 2019-04-30 14:03:32 · 742 阅读 · 0 评论 -
离线处理网站的PV,UV方案
流程:导入数据hdfs(flume-->hdfs) 建立hive表 把hdfs上的数据导入到hive表里面 数据清洗-->(先有一个数据清洗表) 数据分析,数据统计-->存放一张表里面 把hive表的数据导出到,mysql中 把mysql里面的㐇给查出来,展示到页面何为PV?PV(page view)访问量,即页面浏览量或点力量,衡量网站用户访问的网页数量;...原创 2019-01-17 21:04:39 · 400 阅读 · 0 评论 -
一套完整的webserver+Flume+kafka+storm整合方案
实时处理系统:(Flume+Kafka+Storm+hbase+mysql) 为什么要记录访问日志的行为?通过日志我们可以得到网站页面上的访问量,网站的黏性,推荐用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的归类,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营...原创 2019-01-17 20:28:09 · 439 阅读 · 0 评论 -
Kafka
1:Kafka?在流式计算中,kafka一般用来缓存数据,Storm通过消费kafka的数据进行计算Apache Kafka是一个开源消息系统,由scala写成的。 kafka是一个分布式消息队列:生产者、消费者的功能。他提供了类似JMS的特性,但是在设计实现上完全不同,此外他并不是JMS规范的实现。 kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接...原创 2018-12-20 20:39:48 · 197 阅读 · 0 评论