呵呵,前两节好像和python没多大关系。。这节完全是贴代码,
这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。
对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这个变量存在。。。主要是为了控制输出编码。
本程序连跑了24小时,然后分布式在10台机器上部署,长时间续航基本没有问题。
之后每天将进行10万次网页的爬取。
源码如下:
内容爬取及工具
WEB服务及任务调度