bigdata
NoneSec
聊以记录点滴
展开
-
kafka启动过程中的一个小问题
最近项目要用到kafka,按照网上的示例操作一遍,发现第一步就会报错,折腾了半天才发现问题的原因。这里记录一遍以避免同样的问题。第一步下载了kafka的tar源码包,然后要启动zookeeper,执行如下命令: bin/zookeeper-server-start.sh -daemon config/zookeeper.properties此时就会有如下的错误出现: 错误: 找不到或无法原创 2016-11-06 11:33:07 · 5993 阅读 · 3 评论 -
pykafka的NoBrokersAvailableError原因
pykafka NoBrokersAvailableError kafka原创 2016-11-17 16:34:27 · 35997 阅读 · 4 评论 -
pykafka的SessionExpiredError、PartitionOwnedError、ConsumerStoppedException
这两天一直在使用pykafka做简单的开发,但是这个看起来简单的开发任务中却遇到了几个问题,在网上找了一下好像关于这几个问题的讨论(回答)不多,在这里记录一下,为其他遇到类似问题的同学提供一些思路。 任务简化一下就是多个输入把日志信息输入kafka队列中,为了提高处理的效率在队列的另外一端开启多个进程处理日志信息,也就是对一个topic有多个consumers,所以理所当然的用到了kafka的b原创 2016-11-26 18:24:03 · 4544 阅读 · 1 评论 -
pykafka性能比较
最近做了一下pykafka的性能测试,主要涉及到use_greenlets、use_rdkafka、sync这三个参数。 1. 测试的数据 我用一个770MB的日志文件来作为测试数据,文件包含的行数为10175702 行。 2. 测试的demo 在写测试demo的时候遇到了几个问题,别看这么简单、很短的代码却也遇到了几个”棘手”的问题。#!env python#coding=utf-8#原创 2017-05-12 22:41:32 · 8144 阅读 · 7 评论 -
一行代码引发的"血案"
昨天在使用pykafka的时候又遇到了之前我遇到过的PartitionOwnedError、ConsumerStoppedException异常,关于这个异常我之前写过一篇分析的文章(链接在这里),我自认为之前应该是把这个问题彻底解决了的,但是这次它又幽灵般的出现了,使我百思不得其解。 一、问题的出现 我在多台机器上面同时开启了多个进程来读写同一个topic,这个topic有5个partitio原创 2017-07-15 17:07:17 · 3057 阅读 · 0 评论 -
pyspark的pickle.PicklingError
今天在用pyspark的时候在一个类中调用rdd的map的时候报错,代码如下:rdd = df.filter(size(df.emission) > 50).\ rdd.map(lambda row:hmm_learn(row, self._id))rdd.collect()运行的时候报错: pickle.PicklingError: Cannot pickle files原创 2017-08-21 18:08:27 · 4444 阅读 · 1 评论 -
X-Pack的machine learning
如何使用X-Pack的machine learning 最近在使用X-Pack中的机器学习功能,主要的就是利用非监督的时间序列模型,用来检测流量的变化,关于X-Pack这块的文章好像可以参考的比较少,所以我在这篇文章中大致的把X-Pack的机器学习功能做一个简单的介绍。1. X-Pack的安装我们本身是要搭建一个ELK平台,X-Pack只是其中的一部分,ELK平台的搭建网上有原创 2018-01-31 23:32:34 · 2644 阅读 · 0 评论