- 博客(14)
- 收藏
- 关注
Tkinter图形界面设计
[code="java"]#coding=gbkfrom Tkinter import *import pycurlimport sys, re, md5, os, time, commandsimport pycurlimport cStringIO as _StringIOimport sysimport shutil, urllib, urllib2i...
2009-03-29 19:01:19 249
原创 nutch搏斗之一
问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of...
2009-03-26 19:01:02 148
设计python版的爬虫
准备工作安装Python2.5安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:Content=Content.dec...
2009-03-26 10:49:22 113
原创 eclipse profile tool
http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.htmlEclipse Test and Performance Tools Platform
2009-03-26 10:44:01 73
python抓取
准备工作可以使用Python2.5,推荐使用2.4,因为需要兼顾wkfs的接口。安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:...
2009-03-20 09:59:49 159
nutch在单机windows下测试环境的配置
通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。下面分步骤详述。1.安装JDK 6,eclipse3.2以上版本2.为eclise安装IBM mapreduce tools插件[url]http://www.alphaworks.ibm.com/tech/mapreducetools[/url]...
2009-03-19 13:53:43 101
利用lxml,得到html元素的绝对xpath路径
[code="java"]#coding=gbkimport lxml.etreeimport lxml.html as xf=open('f:/test.html','r')c=f.read()doc=x.document_fromstring(c)alist=doc.xpath("//a")for a in alist: tree=lxml.e...
2009-03-13 16:05:33 463
原创 mod_python headers_out
In mod_python it's:req.headers_out["Content-type"] = "application/force-download"req.headers_out["Content-Disposition"] = "attachment; filename=%s" % filename[code="java"]#/usr/local/apache/...
2009-03-11 20:57:11 71
原创 mod_python示例
from mod_python import apachedef handler(req): req.content_type = "text/plain" req.write("Hello World!") return apache.OK
2009-03-10 12:01:21 62
利用pycurl做GETMETHOD
[code="java"]import urllib2import pycurlimport cStringIO as _StringIOimport sysimport shutilimport lxml.html as Himport threadingimport StorageClient as scimport lame# http trans...
2009-03-09 10:19:54 120
python转码
关键是利用unicode内部编码主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。 **常见的编码转换分为以下几种情况:** ===== unicode 转换为其它编码(GBK, GB2312等) ===== 例如:a为unicode编码 要转为gb2312。a.encode('gb23...
2009-03-08 21:37:01 168
原创 cannot open shared object file:No such file or dir
出现这个问题是因为在编译python的时候没有把LD_LIBRARY_PATH处理好,只要在运行前指定下该变量:export LD_LIBRARY_PATH=/your/python/lib/directory然后在运行python就可以了.或者在编译的时候把LD_LIBRARY_PATH放进来....
2009-03-08 07:52:58 91
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人