实时计算
文章平均质量分 57
bigdatar
这个作者很懒,什么都没留下…
展开
-
Introducing Kafka Streams: Stream Processing Made Simple
这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams。当时Kafka Streams还没有正式发布,所以具体的API和功能和0.10.0.0版(2016年6月发布)有所区别。但是Jay Krpes在这简文章里介绍了很多Kafka Streams在设计方面的考虑,还是很值得一看的。以下的并不会完全按照原文翻译,因为那么搞太累了……这篇文件的确很长,而且Jay Krep转载 2016-07-22 15:46:55 · 448 阅读 · 0 评论 -
spark中的countminsketch
什么是countminsketch算法spark中的countminsketch代码示例:import org.apache.spark.util.sketch.CountMinSketchimport org.apache.spark.util.sketch.CountMinSketchImplobject countminsketch { def main(a...原创 2018-03-08 21:08:14 · 1191 阅读 · 0 评论 -
kafka0.8版本和sparkstreaming整合的两种不同方式
1- kafka-082以上kafka-010以下1-1 基于receiver的方式1-2 direct方式无接收器最近研究了不同kafka版本和sparkstreaming整合时的区别,整理如下1- kafka-0.8.2以上kafka-0.10以下http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#原创 2017-09-25 23:54:17 · 1828 阅读 · 2 评论 -
sparkstreaming和kafka0.10版本整合
sparkstreaming和kafka0.10版本整合标签(空格分隔): 未分类sparkstreaming和kafka010版本整合Maven依赖创建directstreamLocationStrategiesConsumerStrategies创建RDD获取Offsets存储offset在checkpoint中存储在kafka中存储参考链接 sparkstreaming集原创 2017-11-07 18:48:29 · 2276 阅读 · 2 评论 -
presto读取kafka数据
1-1-1 配置方法1-1-1 catalog配置1-1-2 schema配置1-2 启动和使用1-3 源码分析1-3-1 metadata1-3-2 任务切分1-3-3 数据读取1-今天分析一下presto的kafka connector的主要原理和源码1-1 配置方法1-1-1 catalog配置connector.name=kafkakafka.nodes=localhost原创 2017-10-22 10:35:00 · 6627 阅读 · 0 评论 -
sparkstreaming中通过kafka sample api实现directstream源码分析
1- 使用kafka simple api的步骤一般2- 源码分析2-1 计算offsets1- 使用kafka simple api的步骤一般Find an active Broker and find out which Broker is the leader for your topic and partitionDetermine who the replica Brokers原创 2017-10-01 04:42:49 · 414 阅读 · 0 评论 -
kafka的consumerConnector.createMessageStreams 方法源码分析
Consumer.create(consumerConfig) val topicMessageStreams = consumerConnector.createMessageStreams( topics, keyDecoder, valueDecoder) 这里的createMessageStreams调用的是子类ZookeeperConsumerConnector 的实现原创 2017-09-27 23:16:40 · 9347 阅读 · 0 评论 -
pq
PQ算法参考:https://blog.csdn.net/u013508213/article/details/72792803需要四个数据集,分别是:训练数据集 用来训练数据的中心点database数据集 用来给这个数据集建立向量索引查询数据集 用来查询ann的数据集算法过程训练数据集为:trainingset 8*16 8行 16维 ...原创 2018-04-01 22:25:27 · 813 阅读 · 1 评论