Kafka
文章平均质量分 70
大数据开发工程师-宋权
攻城狮,嗷!!!!
展开
-
kafka清除topic内容命令(好用)
./kafka-configs.sh --zookeeper 10.106.176.71:2181 --entity-type topics --entity-name rs_ods_my_sp_gradeandweight_si --alter --add-config retention.ms=10000原创 2022-06-25 10:57:16 · 968 阅读 · 0 评论 -
kafkas删除topic数据
生产环境中,有一个topic的数据量非常大。这些数据不是非常重要,需要定期清理。要求:默认保持24小时,某些topic 需要保留2小时或者6小时主要有3个:1. 基于时间2. 基于日志大小3. 基于日志起始偏移量详情,请参考链接:Kafka日志清理之Log Deletion_朱小厮的博客-CSDN博客_log.cleanup.policy接下来,主要介绍基于时间的清除!kafka版本为: 2.11-1.1.0zk版本为: 3.4.13# 启用删除主题delete.topic.enable=true转载 2022-06-13 10:42:08 · 7060 阅读 · 1 评论 -
rabbitmq系列问题解决:406, “PRECONDITION_FAILED - inequivalent arg ‘durable‘
1. 安装rabbitmq,查看官网文档: https://www.rabbitmq.com/#getstarted 由于我是先安装了rabbitmq后自己随手创建了queue,后面又按照官方给的"hello world"例子去测试,结果发生了“406, "PRECONDITION_FAILED - inequivalent arg 'durable'” 这个错误信息。 1. 先在管理页面创建的queue 2. 创建的exchanges ..原创 2022-05-26 15:56:07 · 5234 阅读 · 0 评论 -
kafka压测
实时ETL流程测试文档编号 版本号 V1.0 名称 实时ETL流程测试文档 总页数 正文 编写日期 审批 目录1. 测试目的本次测试主要对基于Flink的实时ETL系统各个环节跑通测试各个组件功能可用性 测试数据一致性、实时性、完整性2. 测试方法采用python脚本模拟生成数据,通过Kafka作为消息队列,Flink完成实时抽取转换,输出数据到HDFS测试过程主要分为以下3原创 2022-02-22 11:10:19 · 1591 阅读 · 0 评论 -
kafka全部数据清空与某一topic数据清空
转载 2021-12-20 15:16:58 · 654 阅读 · 0 评论 -
Kafka 的生产者和消费者实例(亲测可用)
Kafka的生产者和消费者实例。基础版本一生产者ProducerFastStart.javpackage com.xingyun.tutorial_1;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.util.Properties;public class ProducerFa.原创 2021-12-17 16:21:11 · 671 阅读 · 0 评论 -
flume接kafka数据入hive(亲测好用)
0x01 需求背景将Kafka中的JSON数据持久化存储到Hive表中,以供后期有查找的需求。(看了很多讲解的博文,出了各种bug!饶了很多弯路!总结出来的经验就是一定要仔细看Flume的官方文档!!!!!!)Kafka中的数据示例:>{"id":1,"name":"snowty","age":25}Hive表示例:hive> desc hivetable;OKid int ...转载 2021-12-17 14:14:41 · 1872 阅读 · 0 评论 -
Flume 对接 Kafka
1)配置 flume(flume-kafka.conf)2) 启动 kafkaIDEA 消费者 3) 进入 flume 根目录下,启动 flume $ bin/flume-ng agent -c conf/ -n a1 -f jobs/flume-kafka.conf 4) 向 /opt/module/data/flume.log 里追加数据,查看 kafka 消费者消费情况 $ echo hello >> /opt/module/data/flume.log..原创 2021-11-22 15:16:11 · 610 阅读 · 0 评论 -
Kafka 监控
1 Kafka Eagle1.修改 kafka 启动命令 修改 kafka-server-start.sh 命令中注意:修改之后在启动 Kafka 之前要分发之其他节点 2.上传压缩包 kafka-eagle-bin-1.3.7.tar.gz 到集群/opt/software 目录 3.解压到本地4.进入刚才解压的目录 kafka.eagle.password=000000 9.添加环境变量 export KE_HOME=/opt/modu...原创 2021-11-22 15:13:50 · 314 阅读 · 0 评论 -
kafka 自定义 Interceptor
1 拦截器原理 Producer 拦截器(interceptor)是在 Kafka 0.10 版本被引入的,主要用于实现 clients 端的定 制化控制逻辑。 对于 producer 而言,interceptor 使得用户在消息发送前以及 producer 回调逻辑前有机会 对消息做一些定制化需求,比如修改消息等。同时,producer 允许用户指定多个 interceptor 按序作用于同一条消息从而形成一个拦截链(interceptor chain)。Intercetpor 的实现原创 2021-11-22 14:53:34 · 92 阅读 · 0 评论 -
Kafka API
1 Producer API 1.1 消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了 两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。 main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取 消息发送到 Kafka broker。相关参数: batch.size.原创 2021-11-22 11:51:21 · 562 阅读 · 0 评论 -
Kafka 高效读写数据
1)顺序写磁盘 Kafka 的 producer 生产数据,要写入到 log 文件中,写的过程是一直追加到文件末端, 为顺序写。官网有数据表明,同样的磁盘,顺序写能到 600M/s,而随机写只有 100K/s。这 与磁盘的机械机构有关,顺序写之所以快,是因为其省去了大量磁头寻址的时间。 2)零复制技术5 Zookeeper 在 Kafka 中的作用Kafka 集群中有一个 broker 会被选举为 Controller,负责管理集群 broker 的上下线,所 ...原创 2021-11-18 12:03:52 · 196 阅读 · 0 评论 -
Kafka Exactly Once 语义
将服务器的 ACK 级别设置为-1,可以保证 Producer 到 Server 之间不会丢失数据,即 At Least Once 语义。相对的,将服务器 ACK 级别设置为 0,可以保证生产者每条消息只会被 发送一次,即 At Most Once 语义。 At Least Once 可以保证数据不丢失,但是不能保证数据不重复;相对的,At Least Once 可以保证数据不重复,但是不能保证数据不丢失。但是,对于一些非常重要的信息,比如说 交易数据,下游数据消费者要求数据既不重复也不原创 2021-11-18 11:39:09 · 818 阅读 · 0 评论 -
Kafka 架构深入(三)
3.1 Kafka 工作流程及文件存储机制Kafka 中消息是以 topic 进行分类的,生产者生产消息,消费者消费消息,都是面向 topic 的。 topic 是逻辑上的概念,而 partition 是物理上的概念,每个 partition 对应于一个 log 文 件,该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该 log 文件末端,且每条数据都有自己的 offset。消费者组中的每个消费者,都会实时记录自己 消费.原创 2021-11-18 10:40:04 · 184 阅读 · 0 评论 -
Kafka 快速入门(二)
2.1 安装部署 2.1.1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka2.1.2 jar 包下载 http://kafka.apache.org/downloads.html2.1.3 集群部署1)解压安装包 [atguigu@hadoop102 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /o.原创 2021-11-18 10:00:59 · 111 阅读 · 0 评论 -
Kafka专题(一)
1.1 定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于 大数据实时处理领域。 1.2 消息队列 1.2.1 传统消息队列的应用场景使用消息队列的好处 1)解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2)可恢复性 系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所 以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。 .原创 2021-11-18 09:57:11 · 92 阅读 · 0 评论