什么是卡夫卡?其使用案例有哪些?

思维成就财富 2017-12-17 15:36:27

什么是卡夫卡?其使用案例有哪些?

Kafka通常用于实时流式数据体系结构以提供实时分析。了解它的具体使用案例,以及为什么它会大受欢迎。

卡夫卡的增长正在爆炸式增长。财富500强企业中超过三分之一使用卡夫卡。这些公司包括十大旅游公司,十大银行中的七家,十大保险公司中的八家,十大电信公司中的九家,等等。LinkedIn,微软和Netflix每天用Kafka(1,000,000,000,000)处理四个逗号的消息。卡夫卡用于实时数据流,收集大数据,或做实时分析(或两者兼而有之)。Kafka与内存中的微服务一起使用以提供持久性,并可用于向 CEP (复杂事件流式传输系统)和IoT / IFTTT式自动化系统提供事件。

为什么选择Kafka?

Kafka通常用于实时流式数据体系结构以提供实时分析。由于Kafka是一个快速,可扩展,耐用和容错的发布 - 订阅消息传递系统,Kafka被用于JMS,RabbitMQ和AMQP可能由于数量和响应速度而不被考虑的使用情况。Kafka具有更高的吞吐量,可靠性和复制特性,使其适用于跟踪服务呼叫(跟踪每个呼叫)或跟踪传统MOM可能不被考虑的物联网传感器数据。

Kafka可以与Flume / Flafka,Spark Streaming,Storm,HBase,Flink和Spark一起工作,实时获取,分析和处理流数据。Kafka是一个用于提供Hadoop BigData湖泊的数据流。Kafka代理支持在Hadoop或Spark中进行低延迟后续分析的大量消息流。此外, 卡夫卡流媒体 (一个子项目)可用于实时分析。

卡夫卡用例

简而言之,Kafka被用于流处理,网站活动跟踪,度量收集和监控,日志聚合,实时分析,CEP,将数据导入到Spark中,将数据导入到Hadoop, CQRS,重放消息,错误恢复和保证分布提交内存计算日志(微服务)。

谁使用卡夫卡?

许多 处理大量数据的 大公司使用Kafka。LinkedIn起源于它,用它来跟踪活动数据和运营指标。Twitter使用它作为Storm的一部分来提供流处理基础设施。Square使用Kafka作为公共汽车,将所有系统事件转移到各种Square数据中心(日志,自定义事件,度量标准等),输出到Splunk,Graphite(仪表板)以及 Esper-like / CEP 警报系统。Spotify,Uber,Tumbler,Goldman Sachs,PayPal,Box,Cisco,CloudFlare和Netflix等公司也使用这种方法。

为什么卡夫卡如此受欢迎?

卡夫卡的操作简单。卡夫卡是要建立和使用的,很容易找出卡夫卡是如何工作的。然而,卡夫卡很受欢迎的主要原因是它的出色表现。它是稳定的,提供可靠的持久性,具有灵活的发布 - 订阅/队列,可与N个消费者群体进行良好扩展,具有强大的复制功能,为制作者提供可调一致性保证,并在碎片级别提供保留排序(即Kafka主题分区)。此外,Kafka可以很好地处理有数据流处理的系统,并使这些系统能够聚合,转换和加载到其他商店。但是,如果卡夫卡速度缓慢,那么这些特点都不重要。卡夫卡最受欢迎的原因是卡夫卡的出色表现。

为什么卡夫卡这么快?

Kafka非常依赖OS内核来快速移动数据。它依靠 零拷贝的原则。Kafka使您能够将数据记录批量分块。这些批次的数据可以从生产者到文件系统(Kafka主题日志)到消费者端到端地看到。批处理允许更高效的数据压缩并减少I / O延迟。Kafka写入不可变的提交日志到磁盘顺序,从而避免随机磁盘访问和慢磁盘寻找。卡夫卡通过分片提供了横向扩展。它将一个主题日志分成数百个(可能是数千个)分区到数千个服务器。这个分解允许Kafka处理巨大的负载。

卡夫卡:流媒体体系结构

卡夫卡最常用于将数据实时传输到其他系统。Kafka是一个中间层,可以将您的实时数据管道解耦。Kafka核心不适合直接计算,如数据聚合或CEP。Kafka streaming是Kafka生态系统的一部分,提供了进行实时分析的能力。Kafka可以用于快速通道系统(实时和运营数据系统),如Storm,Flink,Spark流,以及您的服务和CEP系统。卡夫卡也用于流数据批量数据分析。Kafka提供Hadoop。它将数据流式传输到您的大数据平台或RDBMS,Cassandra,Spark甚至S3中,以便进行未来的数据分析。这些数据存储通常支持数据分析,报告,数据科学运算,合规性审计和备份。

什么是卡夫卡?其使用案例有哪些?

卡夫卡流式体系结构图

现在让我们真正回答这个大问题。

什么是卡夫卡?

Kafka是一个分布式流媒体平台,用于发布和订阅记录流。卡夫卡用于容错存储。Kafka将主题日志分区复制到多个服务器。卡夫卡旨在让您的应用程序处理记录。Kafka速度很快,通过批处理和压缩记录来高效地使用IO。卡夫卡用于解耦数据流。卡夫卡用于将数据流式传输到数据湖,应用程序和实时流分析系统。

什么是卡夫卡?其使用案例有哪些?

卡夫卡解耦数据流

卡夫卡支持多语言

来自客户端和服务器的Kafka通信使用基于TCP的有线协议进行版本化和记录。卡夫卡承诺保持与老客户的向后兼容性,支持多种语言。有C#,Java,C,Python,Ruby等多种语言的客户端。Kafka生态系统还提供了REST代理,可以通过HTTP和JSON轻松集成,从而使集成变得更加简单。Kafka还 通过Kafka的 Confluent模式注册表支持 Avro模式。Avro和Schema Registry允许客户用许多编程语言制作和读取复杂的记录,并允许记录的发展。卡夫卡是真正的多边形。

卡夫卡是很实用的

Kafka允许您构建实时流数据管道。Kafka使内存中的微服务(即演员,阿卡, Baratine.io, QBit,反应堆, 反应, Vert.x, RxJava, 弹簧反应堆)。Kafka允许您构建实时流应用程序,对流进行反应,以进行实时数据分析,转换,反应,聚合,加入实时数据流以及执行 CEP(复杂事件处理)。

您可以使用Kafka来帮助收集指标/关键绩效指标,汇总来自多个来源的统计信息,并实施 事件采购。您可以将其与微服务(内存中)和参与者系统一起使用,以实现内存中服务(分布式系统的外部提交日志)。

您可以使用Kafka在节点之间复制数据,为节点重新同步以及恢复状态。虽然Kafka主要用于实时数据分析和流处理,但您也可以将其用于日志聚合,消息传递,点击流跟踪,审计跟踪等等。

在这个数据科学和分析是一个大问题的世界里,捕获数据到数据湖和实时分析系统也是 一件大事。而由于卡夫卡可以承受这种剧烈的使用情况,卡夫卡是一个大问题。

卡夫卡支持可扩展的消息存储

卡夫卡是一个很好的记录/信息存储系统。Kafka就像提交日志存储和复制的高速文件系统一样。这些特点使卡夫卡适用于各种应用场合。写入Kafka主题的记录会持久保存到磁盘并复制到其他服务器以实现容错。由于现代硬盘速度很快,而且相当大,所以这种硬盘非常适合,非常有用。卡夫卡制作人可以等待确认,所以消息是持久的,因为制作者写入不完成,直到消息复制。Kafka磁盘结构可以很好地扩展。现代磁盘驱动器在以大批量流式写入时具有非常高的吞吐量。此外,Kafka客户端和消费者可以控制读取位置(偏移量),这允许在重要的错误(即修复错误和重放)时重播日志等用例。 卡夫卡建筑的 文章,消费者可以相当灵活(即重播日志)。

卡夫卡支持记录保留

卡夫卡集群保留所有公布的记录。如果您没有设置限制,它将保留记录,直到磁盘空间不足。您可以设置基于时间的限制(可配置的保留期限),基于大小的限制(可根据大小进行配置)或压缩(使用密钥保留最新版本的记录)。例如,您可以设置三天或两周或一个月的保留策略。主题日志中的记录可供消耗,直到被时间,大小或压缩丢弃。消费速度不受卡夫卡的大小影响,总是写在主题日志的末尾。

转载于:https://my.oschina.net/u/3671084/blog/1601265

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值