自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

Tkinter图形界面设计

[code="java"]#coding=gbkfrom Tkinter import *import pycurlimport sys, re, md5, os, time, commandsimport pycurlimport cStringIO as _StringIOimport sysimport shutil, urllib, urllib2i...

2009-03-29 19:01:19 249

原创 python url编码

urllib2.quote(u'北京'.encode('utf-8'))

2009-03-29 12:07:47 75

原创 nutch搏斗之一

问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of...

2009-03-26 19:01:02 148

设计python版的爬虫

准备工作安装Python2.5安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:Content=Content.dec...

2009-03-26 10:49:22 113

原创 eclipse profile tool

http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.htmlEclipse Test and Performance Tools Platform

2009-03-26 10:44:01 73

python抓取

准备工作可以使用Python2.5,推荐使用2.4,因为需要兼顾wkfs的接口。安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:...

2009-03-20 09:59:49 159

nutch在单机windows下测试环境的配置

通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。下面分步骤详述。1.安装JDK 6,eclipse3.2以上版本2.为eclise安装IBM mapreduce tools插件[url]http://www.alphaworks.ibm.com/tech/mapreducetools[/url]...

2009-03-19 13:53:43 101

原创 eclipse debug

f5 shenruf6 overf7 return

2009-03-18 14:39:34 112

利用lxml,得到html元素的绝对xpath路径

[code="java"]#coding=gbkimport lxml.etreeimport lxml.html as xf=open('f:/test.html','r')c=f.read()doc=x.document_fromstring(c)alist=doc.xpath("//a")for a in alist: tree=lxml.e...

2009-03-13 16:05:33 463

原创 mod_python headers_out

In mod_python it's:req.headers_out["Content-type"] = "application/force-download"req.headers_out["Content-Disposition"] = "attachment; filename=%s" % filename[code="java"]#/usr/local/apache/...

2009-03-11 20:57:11 71

原创 mod_python示例

from mod_python import apachedef handler(req): req.content_type = "text/plain" req.write("Hello World!") return apache.OK

2009-03-10 12:01:21 62

利用pycurl做GETMETHOD

[code="java"]import urllib2import pycurlimport cStringIO as _StringIOimport sysimport shutilimport lxml.html as Himport threadingimport StorageClient as scimport lame# http trans...

2009-03-09 10:19:54 120

python转码

关键是利用unicode内部编码主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换。 **常见的编码转换分为以下几种情况:** ===== unicode 转换为其它编码(GBK, GB2312等) ===== 例如:a为unicode编码 要转为gb2312。a.encode('gb23...

2009-03-08 21:37:01 168

原创 cannot open shared object file:No such file or dir

出现这个问题是因为在编译python的时候没有把LD_LIBRARY_PATH处理好,只要在运行前指定下该变量:export LD_LIBRARY_PATH=/your/python/lib/directory然后在运行python就可以了.或者在编译的时候把LD_LIBRARY_PATH放进来....

2009-03-08 07:52:58 91

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除