Kafka
文章平均质量分 79
Aying_seeya
专研大数据、Java ...
展开
-
大数据相关 各组件的参数调优
Hadoophdfs大量小文件处理1)会有什么影响(1)1个文件块,占用namenode多大内存150字节1亿个小文件150字节1 个文件块150字节128G能存储多少文件块? 128 * 102410241024byte/150字节 = 9亿文件块2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFormat(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。JV原创 2020-08-15 16:16:25 · 725 阅读 · 0 评论 -
kafka 的事务特性
kafka事务???? 相关文章 《kafka 幂等性》与幂等性有关的另外一个特性就是事务。Kafka中的事务与数据库的事务类似,Kafka中的事务属性是指一系列的Producer生产消息和消费消息提交Offsets的操作在一个事务中,即原子性操作。对应的结果是同时成功或者同时失败。这里需要与数据库中事务进行区别,操作数据库中的事务指一系列的增删查改,对Kafka来说,操作事务是指一系列的生产和消费等原子性操作。Kafka引入事务的用途?在事务属性引入之前,先引入Producer的幂等性,它的原创 2020-08-07 20:18:11 · 244 阅读 · 0 评论 -
Kafka 幂等性(Exactly-Once处理数据丢失和数据重复)
Kafka 幂等性在之前的旧版本中,Kafka只能支持两种语义:At most once和At least once。At most once保证消息不会朝服,但是可能会丢失。在实践中,很有有业务会选择这种方式。At least once保证消息不会丢失,但是可能会重复,业务在处理消息需要进行去重。 Kafka在 0.11.0.0 版本支持增加了对幂等的支持。幂等是针对生产者角度的特性。幂等可以保证上生产者发送的消息,不会丢失,而且不会重复。Kafka为啥需要幂等性?Producer在生产发送原创 2020-08-07 20:12:08 · 2021 阅读 · 0 评论 -
Kafka Message(消息)有那几部分组成?
CRC32:4个字节,消息的校验码。magic:1字节,魔数标识,与消息格式有关,取值为0或1。当magic为0时,消息的offset使用绝对offset且消息格式中没有timestamp部分;当magic为1时,消息的offset使用相对offset且消息格式中存在timestamp部分。所以,magic值不同,消息的长度是不同的。attributes: 1字节,消息的属性。其中第0~ 2位的组合表示消息使用的压缩类型,0表示无压缩,1表示gzip压缩,2表示snappy压缩,3表示lz4压缩。第3.原创 2020-08-06 16:32:35 · 619 阅读 · 0 评论 -
SparkStreaming+Kafka
SparkStreaming+Kafka 维护消费者offsetSparkStreaming+Kafka Receiver 模式SparkStreaming+Kafka Direct 模式原创 2020-03-31 10:40:01 · 181 阅读 · 0 评论 -
kafka的消息存储和生产消费模型
kafka的消息存储和生产消费模型• 一个topic分成多个partition• 每个partition内部消息强有序,其中的每个消息都有一个序号叫offset• 一个partition只对应一个broker,一个broker可以管多个partition• 消息直接写入文件,并不是存储在内存中• 根据时间策略(默认一周)删除,而不是消费完就删除• producer自己决定往哪个part...原创 2020-03-29 16:31:09 · 394 阅读 · 0 评论 -
kafka知识点总结
1.什么是kafka? (开放性问题)Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。2.流式计算?strom sparkStreaming flink流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示代表技术:...原创 2020-02-25 22:21:39 · 624 阅读 · 0 评论 -
关于Kafka必须要知道的几个问题
1、用自己的语言大致描述kafka架构原理图1>创建topic设置分区和副本数,生产者以<key,value>的方式发布数据到borker上的leader 副本[如果副本数不为1,zookeeper通过监听机制向kafka发出请求,kafka会在副本间选出一个leader副本来接受生产者发布的数据],再由其他副本复制leader副本上的数据2>在broker里,lead...原创 2020-02-06 19:20:10 · 337 阅读 · 0 评论 -
Kafka理论及经典面试题
1.什么是kafka?Kafka是一种高吞吐量的分布式发布–订阅消息系统。它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Ha...原创 2020-02-05 20:46:29 · 1700 阅读 · 0 评论