python线程池并发爬虫_python爬虫实现(使用线程池)

代码在这里,注释够详细,应该很容看懂吧。(注,程序里面有坑。。。直接用,不看代码小心中招,嘿嘿。。。)

关于该爬虫

程序运行示例:

Spider.py -u url -d depth

Url,depth 为必需参数,其他为可选参数,日志文件默认当前目录,名字:spider.log,日志等级默 认为3。数据库为:data.sql,也是当前目录。

关键字是匹配源码中标签的content属性的值

自检模块只是检查网络连接,和数据库连接。

winXP sp3 和 ubuntu12.10测试爬取www.baidu.com两级深度均能正常运行

目前自知的缺点:

对于命令参数,没有仔细检查分析,如:spider -u s -d 2程序一样会运行,虽然这样不对。

主要参考:

Python爬虫

http://bbs.chinaunix.net/thread-3689276-1-1.html

对Python线程池进行详细说明

http://developer.51cto.com/art/201002/185290.htm

BeautifulSoup学习笔记

http://pqcc.iteye.com/blog/627481

python之sqlite3使用详解

http://anony3721.blog.163.com/blog/static/5119742010716104442536/

Python模块学习

http://www.cnblogs.com/captain_jack/archive/2011/01/11/1933366.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值