先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
如果你需要这些资料,可以添加V获取:vip204888 (备注大数据)
正文
- 拉取数据:消费者主动从broker拉取数据,即采用pull模式。这种方式允许消费者以自己的速度处理数据,避免了因为broker推送消息过快而导致消费者处理不过来的问题。
- 指定偏移量:在拉取数据时,消费者可以在请求中指定从哪个偏移量开始消费日志。这给了消费者很大的灵活性,它可以选择从当前偏移量开始消费,也可以选择从之前的某个偏移量开始重新消费数据。
- 分区分配策略:Kafka中的数据被分成多个分区,消费者可以消费多个分区的数据,但每个分区的数据只能被消费者组中的一个消费者消费。Kafka提供了不同的分区分配策略,如Range分配策略、RoundRobin分配策略和Sticky分配策略等。
- 消费者组:当一个主题的数据量很大时,可以通过消费者组来实现横向扩展。消费者组中的每个消费者可以消费不同分区的数据,从而实现负载均衡。在同一个消费者组中,每个分区只能被一个消费者消费,以避免重复处理数据。
- 位移提交和存储:消费者在消费数据时会维护一个偏移量(offset),表示它在分区中消费到了哪个位置。这个偏移量需要定期提交给Kafka,以便在服务重启或故障恢复时能够从准确的位置继续消费。
- 再均衡机制:当消费者组中的消费者数量发生变化时,Kafka会自动进行分区的重新分配,这个过程称为再均衡(rebalance)。再均衡确保了每个分区都有消费者负责,且每个消费者都能公平地分担负载。
- 拦截器和反序列化:Kafka消费者提供了拦截器(Interceptor)机制,允许开发者在数据处理过程中插入自定义逻辑。此外,消费者还需要对从Kafka接收到的消息进行反序列化,将其转换为应用程序可以理解的数据格式。
- 消费进度监控:为了确保数据处理的稳定性和可靠性,监控系统通常会跟踪消费者的消费进度,包括当前的偏移量、消费速率等信息。
主题(Topic)与分区(Partition)
,Kafka 通过主题(Topic)来组织消息,每个主题可以看作是一个独立的消息队列。为了提高系统的可伸缩性和性能,Kafka 采用了分区(Partition)机制。
在 Kafka 中,每个主题被分割成多个分区。
这些分区有以下特点和优势:
- 并行处理:分区允许 Kafka 主题并行地处理数据。不同的分区可以在不同的服务器(Broker)上进行处理,这意味着一个主题可以扩展到多个服务器以容纳更多的数据或处理更高的吞吐量。
- 分区复制:为了保证高可用性,每个分区可以有多个副本。在这些副本中,会选出一个作为领导者(Leader),而其他的则是跟随者(Follower)。领导者负责处理所有的读写请求,跟随者则同步领导者的数据。如果领导者发生故障,跟随者中的一个会被提升为新的领导者。
- 负载均衡:分区还允许 Kafka 进行负载均衡。生产者可以将消息均匀地发送到不同的分区,消费者组内的每个消费者可以消费不同分区的数据,从而实现负载的分散。
- 有序性保证:虽然分区允许并行处理,但在单个分区内,消息是按照它们进入的顺序存储的。这意味着对于单个消费者来说,即使在并行消费的情况下,从单个分区中读取的消息也是有序的。
- 灵活的消费者偏移量管理:消费者组中的每个消费者维护着自己的偏移量(Offset),这个偏移量标记了它已经消费到了分区中的哪个位置。这使得消费者可以在服务重启或故障恢复时从准确的位置继续消费,而不是从头开始。
- 扩展性:随着系统需求的增长,可以通过增加服务器数量和合理配置分区数量来水平扩展 Kafka 集群。
Broker 和集群(Cluster)
一个 Kafka Broker 能够处理成千上万的分区和百万量级的消息。
Kafka 的设计允许单个 Broker 具有高效的数据处理能力,这得益于以下几个方面:
- 顺序磁盘I/O:Kafka 在写消息数据时,会为每个分区创建一个文件,并将数据顺序地追加到该文件对应的磁盘空间中。这种顺序写入的方式充分利用了磁盘的顺序访问性能,相比随机访问要高效得多。
- 分区和并行处理:Kafka 通过将主题分为多个分区,并在不同的 Broker 上分布这些分区,实现了应用级别的水平扩展。这样,不同的分区可以并行地在不同的 Broker 上进行处理,从而提高了整体的处理能力。
- 高效的网络通信模型:Kafka 设计了一个高效的网络通信模型来处理它与生产者(Producer)和消费者(Consumer)之间的消息传递问题。这个模型对于保持高性能至关重要。
- 监控和度量指标:为了确保 Broker 的性能和稳定性,Kafka 提供了一系列的服务端度量指标,用于监控 Broker 的状态。这些指标包括 Kafka 本身的指标和主机层面的指标,有助于及时发现并解决可能出现的问题。
- 集群的扩缩容能力:Kafka 集群可以通过增删 Broker 来简单地实现整个集群的扩缩容,这使得根据实际需求调整系统性能成为可能。
动手搭建kafka
1.下载压缩包
下载并解压,下载地址
$ tar -xzf kafka_2.13-3.6.1.tgz
$ cd kafka_2.13-3.6.1
2.启动kafka
注意:您的本地环境必须安装 Java 8+。
Apache Kafka 可以使用 ZooKeeper 或 KRaft 启动。要开始使用任一配置,请遵循以下部分之一,但不能同时执行两者。
使用 ZooKeeper 的 Kafka
1. 配置 zookeeper地址
修改config/server.properties文件,修改如下配置:
zookeeper.connect=127.0.0.1:2181
2.添加对外暴漏ip
修改config/server.properties文件,添加以下配置:
# 允许外部端口连接
listeners=PLAINTEXT://0.0.0.0:9092
# 外部代理地址
advertised.listeners=PLAINTEXT://[本机ip]:9092
运行以下命令启动kafka
$ bin/kafka-server-start.sh config/server.properties
使用 KRaft 的 Kafka
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip204888 (备注大数据)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
中…(img-kTPUD2Vp-1713304879919)]
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!