pq

PQ算法 参考: https://blog.csdn.net/u013508213/article/details/72792803 需要四个数据集,分别是: 训练数据集 用来训练数据的中心点 database数据集 用来给这个数据集建立向量索引 查询数据集 用来查询ann...

2018-04-01 22:25:27

阅读数 392

评论数 1

spark中的countminsketch

什么是countminsketch算法 spark中的countminsketch 代码示例: import org.apache.spark.util.sketch.CountMinSketch import org.apache.spark.util.sketch.CountMi...

2018-03-08 21:08:14

阅读数 362

评论数 0

flume中的monitor

json方式配置 启动 生成数据 显示: JMX方式 配置 启动 打开jconsole http://flume.apache.org/FlumeUserGuide.html#monitoring 如果没有监控器,那么flume采集了多少event,sink了多少event...

2018-03-08 16:05:18

阅读数 103

评论数 0

对比MPP计算框架和批处理计算框架

对比MPP计算框架和批处理计算框架标签(空格分隔): 翻译原文链接: https://content.pivotal.io/blog/apache-hawq-next-step-in-massively-parallel-processingMPP设计理念MPP最开始的设计目的是为了消除共享资源...

2017-12-31 23:12:44

阅读数 1426

评论数 0

presto查询处理流程(queryexecution提交)

Query创建 Query创建和QueryExecution提交 通过调用SqlQueryManager的createQuery方法创建 提交查询任务SqlQueueManager的submit方法分析 1 队列选择 2 判断是否有队列许可 3 创建QuenedExecution 4 开始执行 查...

2017-12-02 17:16:59

阅读数 522

评论数 0

presto的QueryExecution的start方法

presto的QueryExecution的start方法标签(空格分隔): prestopresto的QueryExecution的start方法 在queryExecution中start方法代码如下 analyzeQuery方法分析 planDistributionplan方法分析 Task...

2017-12-02 17:10:00

阅读数 346

评论数 0

presto查询处理流程(queryexecution提交)

Query创建 Query创建和QueryExecution提交 通过调用SqlQueryManager的createQuery方法创建 提交查询任务SqlQueueManager的submit方法分析 1 队列选择 2 判断是否有队列许可 3 创建QuenedExecution 4 开始执行 查...

2017-12-02 17:05:49

阅读数 245

评论数 0

sparkstreaming和kafka0.10版本整合

sparkstreaming和kafka0.10版本整合标签(空格分隔): 未分类sparkstreaming和kafka010版本整合 Maven依赖 创建directstream LocationStrategies ConsumerStrategies 创建RDD 获取Offsets 存储o...

2017-11-07 18:48:29

阅读数 1264

评论数 2

kafka0.9

offset和consumer position 消费者组和topic订阅 例子 手动控制offset提交 在kafka外存储offset 控制Consumers Position Consumption Flow Control Multi-threaded Processing http://...

2017-11-06 18:18:04

阅读数 357

评论数 0

kafka 0.8 simple api使用

使用simple consumer 为什么使用simple consumer使用simple consumer为什么使用simple consumer使用simpleconsumer的主要原因是用户想要得到比使用消费者组更好的分区消费的控制,例如用户想要: 多次读取一个消息 在进程中只读取一个t...

2017-11-05 07:11:53

阅读数 180

评论数 0

ideallij调试spark源码的n中方法

该篇文章介绍多种在ideallij中单步调试spark源码的方法,以sparksql为例来进行说明 方法一 直接通过app的方式进行单步调试 本方法假设开发者已经搭建了spark在ideallij中的的运行环境,并且可以成功运行(注意,是ideallij中运行,而不是通过打jar包的方式运行)...

2017-11-04 15:14:43

阅读数 531

评论数 0

一个关于kylin的疑惑

自从研究了kylin这个系统之后,就一直有一个疑惑,那就是kylin针对某一特定查询条件建立的cube,只能在这个条件下查询预计算的结果,如果条件一旦换了,cube就废了。带着这个疑问我在很多技术群里和别人讨论和争辩,都没有结果。看了很多网上分析的文章,都没有关于这个疑问的详细解答,于是今天自己试...

2017-10-30 22:04:42

阅读数 209

评论数 0

kafka0.8 high-level consumer api使用

为什么使用high level api 设计high level消费者https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example为什么使用high level api有时有些逻辑从kafka读取消息时不关心怎么处...

2017-10-24 23:29:26

阅读数 403

评论数 0

kafka0.8消息处理逻辑

1- kafka消息处理入口 1-1 MetadataKey 1-2 OffsetsKey 1-3 FetchKey 1-4 UpdateMetadataKey 1-5 LeaderAndIsrKey1- kafka消息处理入口KafkaApis/** * Top-level method ...

2017-10-22 19:26:50

阅读数 314

评论数 0

presto读取kafka数据

1- 1-1 配置方法 1-1-1 catalog配置 1-1-2 schema配置 1-2 启动和使用 1-3 源码分析1-3-1 metadata 1-3-2 任务切分 1-3-3 数据读取1-今天分析一下presto的kafka connector的主要原理和源码 1-1 配置方法1-1-1...

2017-10-22 10:35:00

阅读数 2004

评论数 0

sparkstreaming中通过kafka sample api实现directstream源码分析

1- 使用kafka simple api的步骤一般 2- 源码分析 2-1 计算offsets1- 使用kafka simple api的步骤一般 Find an active Broker and find out which Broker is the leader for your to...

2017-10-01 04:42:49

阅读数 286

评论数 0

kafka的consumerConnector.createMessageStreams 方法源码分析

Consumer.create(consumerConfig) val topicMessageStreams = consumerConnector.createMessageStreams( topics, keyDecoder, valueDecoder) 这里的crea...

2017-09-27 23:16:40

阅读数 3230

评论数 0

kafka0.8版本和sparkstreaming整合的两种不同方式

1- kafka-082以上kafka-010以下 1-1 基于receiver的方式 1-2 direct方式无接收器最近研究了不同kafka版本和sparkstreaming整合时的区别,整理如下1- kafka-0.8.2以上kafka-0.10以下http://spark.apache.o...

2017-09-25 23:54:17

阅读数 884

评论数 1

jdk中的queue

1- 需求背景 2- LinkedBlockingQueue源码分析 2-1 重要成员变量 2-2 插入方法 2-2-1 put方法 2-2-2 offer方法 2-2-3 boolean offerE e long timeout TimeUnit unit方法 2-3 读取方法 2-3-1 t...

2017-09-23 15:41:37

阅读数 243

评论数 0

sparksql中的broadcast join和prestodb中的dynamic filter比较

今天在prestodb的qq群里看到有人提到说一个子查询在presto中非常慢:select * from his_data_opt where act_no in (select act_no from id_act_map where id_number ='726067685144725')...

2017-09-12 23:09:10

阅读数 609

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭