Kafka
javartisan
年轻人,静下心来做事吧!
展开
-
Spark Streaming Kafka CreateDirectDStreaming 遇见的问题
问题1:spark-submit 提交任务报错如下:分析:起初我的spark 集群是部署在yarn上,所以在spark-env和spark-default下配置了hadoop相关参数。最后我想使用spark standalone模式跑程序,就把spark-env和spark-default下的hadoop相关参数注释掉了。之后提交程序提示:Exception in thread "原创 2016-12-01 19:41:55 · 3746 阅读 · 1 评论 -
Kafka 内幕:源代码High level分析 (推荐)
转载至:http://colobu.com/2015/03/23/kafka-internals/?utm_source=tuicool&utm_medium=referral本文主要介绍了Kafka High level的代码架构和主要的类。Boker 架构network layerKafka使用NIO自己实现了网络层的代码, 而不是采用n转载 2017-05-14 11:11:57 · 2169 阅读 · 0 评论 -
apache kafka系列之源码分析走读-server端网络架构分析
转载至:http://blog.csdn.net/lizhitao/article/details/38442733笔者今天分析一下kafka网络架构,俗话说人无好的胫骨,就没有好的身体,建筑没有扎实可靠的结构框架,就不会屹立不倒。同样的服务端程序没有好的网络架构,其性能就会受到极大影响,其他方面再怎么优化,也会受限于此,那kafka网络架构是怎样的呢,它不是用的现今流行的ne转载 2017-05-14 10:23:31 · 581 阅读 · 0 评论 -
apache kafka系列之源码分析走读-kafka内部模块分析
kafka整体结构分析:kafka源代码工程目录结构如下图:下面只对core目录结构作说明,其他都是测试类或Java客户端代码admin --管理员模块,操作和管理topic,paritions相关,包含create,delete topic,扩展 patitionsApi --该模块主要负责交互数据的组转载 2017-05-14 09:25:56 · 707 阅读 · 0 评论 -
Kafka文件存储机制那些事
转自:http://tech.meituan.com/kafka-fs-design-theory.htmlKafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于201转载 2017-03-15 09:36:11 · 409 阅读 · 0 评论 -
Kafka Introduction 官方文档学习笔记
IntroductionApache Kafka™ is a distributed streaming platform. What exactly does that mean?We think of a streaming platform as having three key capabilities:It lets you publish and subscribe原创 2017-03-14 10:16:20 · 967 阅读 · 0 评论 -
Spark整合kafka0.10.0新特性(二)
接着Spark整合kafka0.10.0新特性(一)开始import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010._原创 2017-03-12 17:02:27 · 6326 阅读 · 0 评论 -
Spark Streaming + Kafka Integration Guide 位置策略和消费策略译文
LocationStrategies 位置策略The new Kafka consumer API will pre-fetch messages into buffers. Therefore it is important for performance reasons that the Spark integration keep cached consumers on execut原创 2017-03-13 15:49:59 · 4250 阅读 · 0 评论 -
Spark整合kafka0.10.0新特性(一)
子曰:"温故而知新,可以为师矣。" 学完长时间不使用不复习便会逐渐忘记,故做一下笔记!Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)整合kafka0.10.0新特性(API都在实验中)。 The Spark Streaming integration fo原创 2017-03-12 11:21:13 · 3961 阅读 · 0 评论 -
Spark 一次语义保证方案
转至:http://www.mamicode.com/info-detail-1655205.html译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/查资料时发现上面这篇文章不错,虽然是1.3的老版本的知识,但是还是有借鉴的地方,业余时间按照自己的理解翻译转载 2017-03-01 18:18:32 · 2606 阅读 · 0 评论 -
Spark Streaming +Kafka 使用底层API直接读取Kafka的Partition数据,手动更新Offset到Zookeeper集群
Spark Streaming +Kafka 使用底层API直接读取Kafka的Partition数据,正常Offset存储在CheckPoint中。但是这样无法实现Kafka监控工具对Kafka的监控,所以手动更新Offset到Zookeeper集群中原创 2016-11-30 20:22:01 · 10795 阅读 · 0 评论 -
Kafka是如何实现高吞吐率的
转载至:Kafka是如何实现高吞吐率的Kafka是分布式消息系统,需要处理海量的消息,Kafka的设计是把所有的消息都写入速度低容量大的硬盘,以此来换取更强的存储能力,但实际上,使用硬盘并没有带来过多的性能损失kafka主要使用了以下几个方式实现了超高的吞吐率顺序读写kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利转载 2017-05-14 15:56:53 · 822 阅读 · 0 评论