自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Arthur的随笔

The More I Learn, The Less I Know, Tracking Mind Only With Code

  • 博客(170)
  • 资源 (5)
  • 收藏
  • 关注

原创 使用scrapy爬取flickr上某人照片

flickr免费帐号坑爹的只有200张照片的限额,用用就到限制了,准备换个相册。可上面的照片一个一个下下来就麻烦了,正好想用用scrapy,现学现卖,写了一个。代码在https://github.com/largetalk/flickr_photo_crawl使用命令是: scrapy crawl flickr -a username=largetalk -o scraped_

2013-05-15 20:41:23 3013

原创 merge json (incomplete)

from pprint import pprinta = { "_types" : [ "InterimResponseHistory" ], "uptime" : "2013-04-26T06:16:06.638Z", "permission_id" : "w131", "_cls"

2013-04-27 14:47:30 1242

原创 跑步记

快入夏了,肥大的肚腩实在难看,所以最近两周每晚基本都跑了跑步,当然,现在效果还看不出来,也没有励志的故事可讲,不过跑步中还是有些事值得记下来。由于没有好的场地和路线,我跑步就是在小区里绕着几栋楼绕圈,一圈大概五百多米,第一次跑了三圈,第二次6圈,后面是以7.5,8,9,10,11圈这么递增下来的,现在基本是维持在11圈,大概6.5公里的样子,时间大概要44分钟,这个成绩没什么可夸的,稍微运动运

2013-04-26 16:26:10 960

原创 ubuntu rebuild nginx to add stub_status module

在Q群里看到人说给nginx的配置文件加上如下行: location /NginxStatus { stub_status on; }可以看到一些nginx运行的信息,可是我加上后重新reload却出现了错误$ sudo /etc/init.d/nginx reloadReloading nginx configurat

2013-04-16 11:07:27 4989

原创 AMQP协议笔记

AMQPProducer, Broker, Exchange, Routing Key, Binding, Queue, Comsumerchannelvhost vhost有自己的名字空间和一组Exchange, 每个连接和一个vhost关连, 链接中不可以直接切换到另一个vhostExhange 类型:Fanout: 将消息路由到所有绑定的队列, 广播模

2013-04-10 01:31:57 2118

转载 fork与信号

1,fork后子进程会继承父进程的信号屏蔽字,再继续exec后仍会继承这个信号屏蔽字。同样地,直接调用system后子进程也会继承父进程的信号屏蔽字。2,fork后子进程会继承父进程的信号处理设置,再继续exec后就不会继承这个信号处理设置了。3,fork后子进程会继承父进程的控制终端,且子进程在父进程的进程组和会话组中;再继续exec后仍会继承这个控制终端,仍在父进程的进程组和会

2013-04-07 11:27:49 3116

转载 git 更改远程仓库

basic from: http://blog.csdn.net/zbunix/article/details/86136481). 从原地址克隆一份裸版本库git clone --bare git://github.com/username/test.git2). 然后到新的 Git 服务器上创建一个新项目如果是自己服务器,使用git init --bare

2013-04-03 10:55:02 1341

原创 Zookeeper集群安装

Zookeeper集群安装前提:准备3台机器,ip分别是172.16.97.11172.16.97.12172.16.120.4下载zookeeper, http://zookeeper.apache.org/releases.html , 我下载的最新的3.4.5版下面操作在3台机器上都要做:sudo tar xvf zoo

2013-04-02 11:01:14 1513

原创 deploy django with url prefix in nginx

我以前一般部署网站都是部署在根目录下, 比如www.example.com 直接转发到 后端服务器监听的端口,这种很简单,只要这样即可: location / { proxy_pass http://127.0.0.1:8888 ; }但如果我们想将网站部署在某个子目录下, 比如www.example.com/admin/ , 则不是那么简单的事

2013-03-28 21:53:20 2035

原创 hadoop 伪分布式安装

这个也是个简单的步骤,备忘而已。1. java的安装http://www.devsniper.com/ubuntu-12-04-install-sun-jdk-6-7/Installing Sun JDK 6 on Ubuntu 12.04 / 12.10:Download the sun jdk 6 bin from here.Make the bin

2013-03-24 16:09:41 1712

原创 关于Sentry

1. Sentry介绍及使用Sentry is a realtime event logging and aggregation platform. At its core it specializes in monitoring errors and extracting all the information needed to do a proper post-mortem wi

2013-03-06 10:18:12 22787 1

原创 selenium试用

作为一个小公司的程序员命有点苦阿,啥都要自己作。最近网站有个文件下载功能需要测试,文件下载先需要登录,而且下载的url是计算出来的,所以手工方式测试太累了,只能用程序来实现了。虽然我知道用urllib2和cookielib能非常简单的解决这个问题,但看见selenium特别好玩,在界面上能自动的操作非常酷哈,就用selenium来解决这个问题了。先是安装selenium:pip ins

2013-02-28 14:32:16 1656

转载 新年快乐

又是一年春来到,在蛇年里,pythoner一定要崛起,我新的一年打算是尝试,尝试各种新鲜玩意,尝试以前不会,没时间玩的东西,在不同领域都进行尝试,这不在边看春节晚会的时候边尝试把gentoo安装成功了,一直想玩玩gentoo的,但原来觉得很难,安装完之后发现其实也很简单。安装过程无须多说,主要看这篇文章即可:http://www.ha97.com/2333.html

2013-02-10 10:43:49 748

原创 sys 模块

sys.excepthook 未捕获异常处理的顶层函数import sysdef new_hook(t, v, tb): print 'in new hook' return sys.__excepthook__(t, v, tb)sys.excepthook = new_hookraise ValueError('asdfasdfa')sys.dis

2013-01-30 23:06:12 7283

转载 Linux内核中的红黑树

from: http://www.kerneltravel.net/jiaoliu/kern-rbtree.htmlLinux内核中的红黑树作者:西邮 王聪红黑树是平衡二叉树的一种,它有很好的性质,树中的结点都是有序的,而且因为它本身就是平衡的,所以查找也不会出现非常恶劣的情况,基于二叉树的操作的时间复杂度是O(log

2013-01-13 12:20:14 940

原创 Django 网站windows部署及调优

在过去的一周,由于客户的需要,将我以前用django写的网站部署到windows上并做了相应压力测试,该项目原来写的时候目标是linux,部署到windows修改的比较多的地方就是和文件路径相关的地方了,所有直接拼接路径的地方都改成os.path.join,然后基本就能跑起来了。软件所需大部分包在windows下都能安装,但gunicorn和uwsgi在window下不能安装,所以只好放弃

2012-12-29 10:28:27 12872

原创 可传参或不传参的decorator

项目中有个需求, 使用了postgres的多个schema,所以需要来回切换,希望有这样一个decorator:@useSchema #使用默认schemadef operator_db(): pass@useSchema(schema) #使用指定schemadef operator_db(): pass看了下django.db.transaction的commi

2012-12-18 21:00:40 1113

原创 推荐学习笔记-概率和朴素贝叶斯

先验概率(prior probability): 对一个假设(hypothesis)/事件 发生已知的概率,记为P(h)。如: 抛一枚硬币,证明朝上的先验概率是 P(h) = 0.5后验概率(posterior probability): 在特定数据/情景下,某事件发生的概率, 记为P(h|d).P(D): 某事/条件出现的概率P(D|h): 在h发生时, 某事出现的概率。

2012-12-16 20:11:22 1525

原创 use pep8 check code by pre-commit git hooks

一点小玩意$ cat pre-commit#!/bin/bashecho '############################'echo 'pep8 check before git commit'git status | grep -E 'modified:|new file:|renamed:' | grep '.py$' | awk '{print $NF}' | xa

2012-12-15 01:15:39 1081

原创 推荐学习笔记-协同过滤2

书接上文 推荐学习笔记-协同过滤显式数据: 用户的评分,like or unlike等隐式数据: 用户点击,购买记录,在某个页面停留时间,播放次数等调整的余弦相似度:, 对于用户每个评分都要减去该用户平均评分作为他的最终评分,然后计算相似度Slope One:解释是一个物品别人的评分比另一个物品高,那给你的预测也是如此。分两步:第一步,算出所

2012-12-07 22:09:47 670

原创 pypy的速度

无聊作PE http://projecteuler.net/problem=10 , 求2百万以下数的所有数的总和python 随便写了一个big = 2000000import timeplst = [2, 3, 5, 7, 11, 13]t1 = time.time()for i in xrange(17, big, 2): for p in plst:

2012-12-07 11:01:05 2993

翻译 Descriptor 指南

http://docs.python.org/2/howto/descriptor.htmlAbstractDefinition and Introduction通常来说, descriptor 是一种绑定着特殊行为属性的对象, 在访问它时行为被descriptor协议定义的方法所重载。这些方法是__get__, __set__ 和__delete__。 如果对象定义了

2012-12-07 00:36:22 1400

转载 linux shell 和 vim快捷键

from: http://blog.sina.com.cn/s/blog_7556be720100ryp2.htmlCtrl+p重复上一次命令Ctrl+a跳到第一个字符前Ctrl+x同上但再按一次会从新回到原位置Ctrl+b前移一个字符不删除字符情况下Ctrl+h删除前一个字符Ctrl+u删除提示符前的所有字符Ctrl+w同上Ctrl+d删除提示符后一个字符或exit或log

2012-12-05 14:28:31 3848

原创 推荐学习笔记-协同过滤

协同过滤是推荐系统中用的比较多的算法,也是容易理解较简单的算法,而且效果也不错。协同过滤又分为:item-based collaborative filtering: 喜欢这个物品的人还喜欢什么, 代表有amazonuser-based collaborative filtering: 和我相似的人还喜欢什么, 代表有digg两种方法计算类似,先要找出相似的item或use

2012-12-04 23:28:59 1083

原创 线性代数复习

正交矩阵: 它的转置矩阵就是它的逆矩阵, QTQ = QQT = I对角矩阵: 方阵M所有非主对角线元素全等于零的矩阵。 (主对角线元素: 元素两个下标相等)svd, 奇异值分解: 矩阵M = UΣVT, U和V是正交矩阵, Σ是非负对角阵, Σ对角线上的元素即为M的奇异值。M 是m*n, U是m*m, Σ是m*n, VT是n*n特征值与特征向量:Αξ = λξ, 在变换的

2012-12-04 09:33:42 1340

原创 python dsl - pyparsing介绍

写在前面: 10月份一直在外面出差,都没看书或写代码,也打破了保持这么久每个月都写几篇博客的习惯,现在11月份也过去一半了,还是没做什么事情。感觉这写东西都慢慢写不下去了,难的写不了,简单的网上到处都是,前面写的那些也都是从各个地方收集自己复诉一遍而已。就当刷点存在感吧。昨天忽然想到ruby的dsl用的地方非常多,也比较容易写。基本上每个库都自己定义一套语言,我学ruby的时候就是受不

2012-11-16 11:31:35 15722 2

原创 tcp通信:多进程共享listen socket方式

看tornado源码多进程(process.py)那段,发现他的多进程模型和一般常见的模型有点不一样,多见的是主进程bind-> listen -> accept, 将accept返回的socket用子进程处理,而tornado是在bind -> listen -> fork, 在listen之后fork,多个子进程共享listen socket, 每个子进程都accept。 以前没见过这种模型,

2012-09-03 17:59:20 8748

原创 gdb和coredump等一些调试技巧

查看一个可执行文件需要加载的库, ldd filename, 如:$ ldd str_hash linux-gate.so.1 => (0x00de1000) libc.so.6 => /lib/i386-linux-gnu/libc.so.6 (0x008ed000) /lib/ld-linux.so.2 (0x003f0000)如果想看一个运行中程序的动态加载库,可以先p

2012-09-03 14:53:00 1743

原创 python模块runpy

http://www.python.org/dev/peps/pep-0366/http://www.python.org/dev/peps/pep-0338/The runpy module is used to locate and run Python modules without importing them first. Its main use is to imple

2012-08-27 23:49:17 11195

原创 random在多进程下的奇怪表现

tornado源码process.py fork_process函数功能是根据cpu数等来启动多个进程, 使用得是os.fork, 但在子进程里,真正执行端口监听前调用了一个奇怪得函数_reseed_random,该函数实现如下:def _reseed_random(): if 'random' not in sys.modules: return import

2012-08-27 01:29:11 1227

原创 简单说说bigtable

这个题目很难,所以肯定说不好,但最近看了点这方面得东西,总得唠叨唠叨,留下点什么吧。话说GFS,bigtable这样得东西我也只是看看,工作中根本用不到,懂些名词,免得在别人吹牛B时只能在旁边呵呵傻笑,行,言归正传。bigtable首先是google提出来得,论文在此,给的注释就是“一个分布式结构化数据存储系统”,其实就一数据库,当然和我们平时得关系数据库是不一样得。首先看它的结构化,它的结构

2012-08-23 23:19:32 1393

原创 维特比算法一点个人理解

维特比算法 wiki维特比算法要解决得是隐含马尔可夫模型计算复杂度过高而提出来得一个算法,从可见序列(y1,y2..yn)推导出最大可能性的隐含序列(x1,x2..xn)的这么一个算法,推导中有这么两个问题,1.从yi到xi得概率,即 f(xi|yi), 这个可以通过贝叶斯公式来计算得到。 2. 每步推导存在多种状态得可能性,即 xi到xi+1的可能性为ni * ni+1 种。这个

2012-07-31 23:37:09 5591

原创 convert sqlite to mysql

尼玛,开始数据库不选好后面改太操蛋了,关键运行中得数据还不能丢,让人崩溃阿1. schema先sqlite3 xxxx.db>.output schema.sql>.schemamysql和sqlite差距老大了,写一个sed脚本改schema,sql,一边写一边测,不具有可复制性#!/bin/sed -f #filename : schema.sed#author

2012-07-24 23:07:49 2776

原创 python builtin keyword: property

该文章有误, 请google python descriptor##################################################################################property 这个东西用起来还是很简单得,见 http://docs.python.org/library/functions.html#property, 两

2012-07-11 22:50:57 1236

原创 杂记

最近事情比较多,都没时间来写点东西了。这段时间除了项目压力比较大之外,也翻看了不少代码和博客等等, 虽然感觉接触了很大得知识量,但一下子还消化不了。看得一些东西虽有所得也没形成系统得知识储备,趁着端午稍有空闲记录一下。python:weakref : python weakref模块允许程序员创建弱引用的对象弱引用对象是指一个比较弱得引用不足以让对象一直存在,垃圾回收器可以自由销毁和回收

2012-06-23 19:14:19 2769

原创 redmine安装

折腾了一下redmine安装, 发现ruby很多东西都不记得了,留个笔记,备忘。安装redmine之前先要安装 ruby, 我是用rvm安装得, rvm是个很好得东西按照 https://rvm.io/rvm/install/ 安装rvm, 我安装得是single user,因为就我一个人用。然后 source ~/.rvm/script/rvmrvm install ruby

2012-06-16 00:40:54 2600

原创 django 中timezone的处理

http://www.cnblogs.com/c9com/archive/2012/06/06/2507912.html 中说了django中fromtimestamp的一个奇怪问题,我试了试,我本地没这问题,后来看到后面写到是因为重庆时区变更导致得,就翻了下django代码,想看看django是怎么处理时区得。我们在settings文件中加入, TIME_ZONE='Asia/Shangha

2012-06-09 10:31:41 13228

原创 k-mean算法实现

k-means 算法的工作过程说明如下:  初始化:聚类数k,初始聚类中心x,迭代次数或者收敛条件。  首先,从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;  然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);  再次,不断重复上面的过程直到满足

2012-05-31 23:30:45 1754

原创 django里面一些小细节

django源代码非常多,框架比较大,以我水平要分析一下还是比较吃力得,能看懂就不错了,要讲出来并且讲得比较清楚就更难了。所以先从小处入手,一点点看django得细节。1. 信用卡验证算法-luhn算法。in django/utils/checksums.py代码比较简单LUHN_ODD_LOOKUP = (0, 2, 4, 6, 8, 1, 3, 5, 7, 9) # sum

2012-05-26 23:28:55 4200

原创 牛顿迭代法和最小二乘法直线拟合代码

最近感觉啥都不会了,忘光了#coding:utf-8def df(func,x):#求导 eps = 1.0e-4 return (func(x + eps) - func(x))/epsdef customFunc(x): return pow(x,4) + 3 * pow(x,3) + 1.5 * pow(x, 2) - 4def newton(x

2012-05-23 00:11:25 4794

download程序C#源码,支持断点续传

代码是用C#实现的。Downfile是一个用来下载的类,其中的work方法不支持断点续传,Continuework支持。writeLog是用来把错误和异常写到日志文件的一个类

2008-09-02

hierarchical data

两种树形结构存储于关系数据库中设计的介绍

2011-12-16

Hide and seek in a complex world

Hide and seek in a complex world.pdf

2008-03-11

cximage类库

最近在学习用cximage类库,感觉还不错,可以提供一些基本的图像读取显示格式转换功能,大家可以试试。不过这方面的资料少,对里面提供的函数功能不太了解

2008-04-22

处理基本图像的DIB类

包括Cdib.h与Cdib.cpp

2007-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除