用python中htmlParser实现的spider(python spider)

本文作者分享了自己使用Python的htmlParser模块编写的网站爬虫,该爬虫主要用于检查死链、空title,以及网站的语法错误。它可以处理站内链接,包括主站和二级站,并能过滤重复URL。爬虫依赖Python 3.2rc1及以上版本,能够检查页面错误并给出错误位置,但无法处理被重定向的死链。此外,作者还提到在Eclipse+Pydev环境下开发,并邀请读者测试源码并反馈问题。
摘要由CSDN通过智能技术生成

最近公司网站搞检查,发现了一些问题,一直在用的是xenu工具,速度快,小巧(写了这么多年的MFC,真的很亲切啊,呵呵)

 

刚好这2天才学习python,所以自己写了一个spider,逐渐也对python有了一些了解,下面把源码分享出来,大家可以玩玩看

文件是utf-8格式,但如果加了中文注释,竟然不能debug了。。。无论你是不是在文件头2行加了#encoding=utf-8等方法,有人解决了告诉我一下哦

 

spider.py(主程序)

mylogger.py

 

myHtmlParse.py

 

logging.config(配置档,用过log4c等的一看就明白了)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值