学习Apache Kafka

最新推荐文章于 2024-07-21 13:20:57 发布

nanphonfy

最新推荐文章于 2024-07-21 13:20:57 发布

阅读量297

点赞数

分类专栏： kafka 文章标签：分布式海量数据

本文链接：https://blog.csdn.net/nanphonfy/article/details/78797525

版权

kafka 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. Apache Kafka

挑战：①收集海量数据；②分析。

分析包括：用户行为数据、应用程序的性能跟踪、以日志形式显示的动态数据、事件信息…

kafka可处理实时信息并很快地将其路由到多个消费者。提供了生产者之间信息的无缝集成，不需阻塞消费，生产者不需关心消费者是谁。

它是一个开源的、分布式的、分区的和基于复制日志提交的发布-订阅消息传递系统。

①持久性消息传递： 保证消息不丢失，提供O(1)常量时间性能的磁盘设计，支持大容量存储（TB）。信息持久化到硬盘，且在集群中复制，以防数据丢失；
②高吞吐量: 每秒处理数百MB的读和写操作；
③分布式: 以集群为中心，在kafka服务器上进行消息分区（在每个分区维护ordering semantics），并在集群上分发消费。集群可弹性、透明地增长，而不需停机；
④多客户端： 支持简单集成来自不同平台的客户端（Java、NET、PHP、Ruby、Python）；
⑤实时: 由生产者线程生成的消息对消费者线程立即可见（该特性对基于事件的系统非常重要，eg.复杂事件处理(CEP)系统）

提供了一种实时的发布-订阅解决方案，还支持Hadoop中的并行数据加载。

在生产方面，有不同类型的生产者: eg.
①前端web应用程序生成的日志；
②生成web分析日志的生产者代理；
③生成转换日志的生产者适配器；
④生成调用跟踪日志的生产者服务。

在消费方面: eg.
①离线消费者，正在使用消息并将其存储在Hadoop或传统数据仓库，用于离线分析；
②接近实时的消费者，正在消费信息并将其存储在NoSQL（eg.HBase或Cassandra），用于近实时分析；
③像Spark或Storm，可在内存中过滤消息，为相关组触发警报事件。

2. Why do we need Kafka?

数据通常包括用户活动、事件登录、页面访问、点击、社交网络活动，如“赞”、“分享”和“评论”、操作
和系统指标（由于高吞吐量(每秒数百万条消息)，所以通常由日志记录&传统日志聚合解决方案处理——面向离线分析eg.hadoop）
对构建实时处理系统非常局限。

实时分析包括：
①基于搜索的相关性、基于受欢迎程度、共同发生或情感分析的建议、向大众投放广告、从垃圾邮件或未经授权的数据抓取、发送高温警报的设备传感器、任何异常的用户行为或应用程序的黑客行为。

从生产系统收集的这些多组数据的实时使用情况，由于收集和处理的数据量大而成为一个挑战。

kafka目标是通过提供一种机制来统一线下和线上处理：
Hadoop系统中的并行负载以及在一组机器上的分区实时消耗的能力（处理流式数据很有用）。
从架构的角度来看，它更接近于传统的消息传递系统，如ActiveMQ或RabitMQ。

参考：Learning Apache Kafka Second Edition

nanphonfy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习Apache Kafka

1. Apache Kafka 挑战：①收集海量数据；②分析。分析包括：用户行为数据、应用程序的性能跟踪、以日志形式显示的动态数据、事件信息… kafka可处理实时信息并很快地将其路由到多个消费者。提供了生产者之间信息的无缝集成，不需阻塞消费，生产者不需关心消费者是谁。它是一个开源的、分布式的、分区的和基于复制日志提交的发布-订阅消息传递系统。
复制链接

扫一扫

专栏目录