关闭

pyspark的pickle.PicklingError

今天在用pyspark的时候在一个类中调用rdd的map的时候报错,代码如下:rdd = df.filter(size(df.emission) > 50).\ rdd.map(lambda row:hmm_learn(row, self._id)) rdd.collect()运行的时候报错: pickle.PicklingError: Cannot pickle files...
阅读(219) 评论(0)

一行代码引发的"血案"

昨天在使用pykafka的时候又遇到了之前我遇到过的PartitionOwnedError、ConsumerStoppedException异常,关于这个异常我之前写过一篇分析的文章(链接在这里),我自认为之前应该是把这个问题彻底解决了的,但是这次它又幽灵般的出现了,使我百思不得其解。 一、问题的出现 我在多台机器上面同时开启了多个进程来读写同一个topic,这个topic有5个partitio...
阅读(355) 评论(0)

Python2的function cache实现

今天看到Python3中有lru_cache的function cache,无聊就试着在Python2.7中实现了一个简单的版本:#!env python #coding=utf-8 # # Author: liuxingen@nsfocus.com # # Created Time: 2017年05月28日 星期日 09时34分06秒 # # FileName: test...
阅读(515) 评论(0)

multiprocessing解析(二):Pool解析

前面一篇已经把multiprocessing.Process这个最基础的类给解剖了,接下来的这篇就是整个multiprocessing中最重要的类Pool的浅析了,因为如果把Pool的所有方方面面都顾及到的话篇幅会比较长,所以我只会把Pool的整体框架整理一下,细节的内容可以更多的去阅读源码。 1. multiprocessing.Pool的几个参数的解读 Pool的构造参数中有三个我认为比较有...
阅读(1615) 评论(0)

multiprocessing解析(一):Process的解析

最近项目中为了提升Python的运行效率,要使用到multiprocessing模块,场景其实不算复杂但是为了避免带来一些隐晦的bug,我觉得还是深入了解一下它比较好。因为当我使用multiprocessing的时候我觉得Python替我做的事情太多了(其实也就是用multiprocessing太方便了)给我带来了快感却没有安全感,还有一个主要的原因就是我觉得fork是最”奇幻”的函数。 可能会分...
阅读(1993) 评论(0)

pykafka性能比较

最近做了一下pykafka的性能测试,主要涉及到use_greenlets、use_rdkafka、sync这三个参数。 1. 测试的数据 我用一个770MB的日志文件来作为测试数据,文件包含的行数为10175702 行。 2. 测试的demo 在写测试demo的时候遇到了几个问题,别看这么简单、很短的代码却也遇到了几个”棘手”的问题。#!env python #coding=utf-8 #...
阅读(1968) 评论(4)

python-daemon日志记录的一个小问题

最近用到了python-daemon这个库来使一个进程成为daemon进程,代码大致如下:#!env python #coding=utf-8 import logging import multiprocessing import logging.configimport daemonfrom test import wrapper2logger = None pool = Nonedef m...
阅读(572) 评论(0)

Django的request.POST获取不到内容的原因

我通过如下的一段程序发送post请求:import urllib3 pool = urllib3.connection_from_url('http://127.0.0.1:8090') resp = pool.request('POST', '/polls/', fields={'key1':'value1', 'key2':'value2'}, headers={'Content-Type':'...
阅读(2830) 评论(2)

解决centos中"ImportError: No module named _tkinter"问题

今天想要用Metasploit的时候出现了"ImportError: No module named _tkinter"的错误,_tkinter是被Tkinter模块引用的,因为对Tkinter不太熟悉所以也不知道为什么会有这个错误。 我本身是在centos中,而且系统中存在不同的账号分别使用了不同版本的Python,所以我先在root账号下试了一下import Tkinter是OK的,接着用命令...
阅读(1962) 评论(0)

pykafka的SessionExpiredError、PartitionOwnedError、ConsumerStoppedException

这两天一直在使用pykafka做简单的开发,但是这个看起来简单的开发任务中却遇到了几个问题,在网上找了一下好像关于这几个问题的讨论(回答)不多,在这里记录一下,为其他遇到类似问题的同学提供一些思路。 任务简化一下就是多个输入把日志信息输入kafka队列中,为了提高处理的效率在队列的另外一端开启多个进程处理日志信息,也就是对一个topic有多个consumers,所以理所当然的用到了kafka的b...
阅读(1909) 评论(1)

pykafka的NoBrokersAvailableError原因

pykafka NoBrokersAvailableError kafka...
阅读(3842) 评论(0)

kafka启动过程中的一个小问题

最近项目要用到kafka,按照网上的示例操作一遍,发现第一步就会报错,折腾了半天才发现问题的原因。这里记录一遍以避免同样的问题。 第一步下载了kafka的tar源码包,然后要启动zookeeper,执行如下命令: bin/zookeeper-server-start.sh -daemon config/zookeeper.properties 此时就会有如下的错误出现: 错误: 找不到或无法...
阅读(2827) 评论(1)

Python相对、绝对导入浅析

这篇文章从另外一个不同的视角来分析一下Python的import机制,主要的目的是为了搞懂import中absolute、relative import遇到的几个报错。 这里不同的视角是指从Python import hooks这个方面来展开,当然本身关于Python import hooks有很多的文章,我这里不打算展开聊这个方面的内容,文章中主要会结合代码和PEP 302 – New Impo...
阅读(19261) 评论(1)

如果获得页面跳转的最终URL

最近做一个小功能,就是获取一个页面经过跳转后的最终页面URL,这里的跳转方式包含但不仅限于HTTP 301/302、js、meta refresh。下面是我想到的三种可能的解决方式,可能会有更优的方法,期望大家提出更好的方法。 首先的解决方法就是解析html页面,获得html页面中跳转的URL。 这种方式是我能想到的最高效、速度最快的方法,但是也有可能是最难维护的,因为我们必须对各种跳转方式都要了...
阅读(18375) 评论(7)

Cython初窥

这篇关于Cython的文章主要是用来阐述什么是Cython,Cython的主要用途是什么。对于Cython的具体用法基本不涉及,因为我觉得了解它的主要用途以及它的优缺点,那么等到有使用场景的时候再来学习一下它的document就可以了。 1. Python的扩展模块(extention module) 我们知道可以用c、c++来扩展Python,这样做的目的就是为了把一些关键功能用更快、更高效的...
阅读(3221) 评论(0)
49条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:289935次
    • 积分:2828
    • 等级:
    • 排名:第13856名
    • 原创:48篇
    • 转载:1篇
    • 译文:0篇
    • 评论:31条
    文章分类
    最新评论