- 博客(8)
- 资源 (10)
- 收藏
- 关注
原创 从hbase读取数据优化策略和实验对比结果
起因:工作需要,我需要每5分钟从hbase中,导出一部分数据,然后导入到ES中,但是在开始阶段编写的python脚本,我发现从hbase读取数据的速度较慢,耗费大量的时间,影响整个导数过程,恐怕无法在5分钟内完成导数工作在咨询了老人后,采取部门优化策略,并记录了实验结果。
2014-10-24 13:44:05 1847 1
原创 celery expires 让celery任务具有时效性
起因:有的时候,我们希望任务具有时效性,比如定时每5分钟去抓取某个状态,由于celery队列中的任务可能很多,等到这个任务被执行时,已经超过了5分钟,那么这个任务的执行已经没有意义,因为下一次抓取已经执行了。
2014-10-22 15:15:27 3100
原创 关于multiprocessing,我也来聊几句
起因:最近需要从hbase中向 ES中导一批数据,使用multiprocessing 启动多个程序同时向ES导数据,可以大大提高效率,因为导数的任务是可以按照时间分割的。令我十分不解的,multiprocessing 是如何实现任务的分发,以及结果的回传的。我希望能够把它的实现机制与操作系统的进程机制对应起来。经过阅读代码,得出的结论如下:1. 父进程作为整个任务的分发器,每个worker是一个子进程2. 子进程和父进程之间通过管道通讯,包括任务的分发和结果的回传(2个【管道】) ,管道通过【信号量
2014-10-03 12:12:42 2151
原创 python 日志收集服务器
引因: python 的日志收集服务是线程安全的(对同一个文件的写入,使用了锁),但是对于多进程的情况,它是无法处理的。python 官方文档推荐的做法是,使用tcp 服务器专门用于日志的收集,以确保对的文件的写入是安全的。这里提供了日志收集服务器基于twisted的实现,可供参考,程序在centos上进行了测试,并可用于生产环境
2014-10-02 13:40:28 7998
linux下 tree 命令的简易实现
2012-05-05
SGI的STL源代码实现
2012-04-15
SqlMap自动生成小工具SqlMapAutoGen1.0
2012-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人