(转)有一个小型的 pthon spider开源项目源码(很小)

这是一个python写就的spider,目前很小,只有几K,但是已经可以支持robots.txt协议和cookies,并且加入了事件机制,因为可以方便地为这个项目开发插件。有了插件的支持,这个spider就可以用来做各种各样的事情,用在各种目的上。

举些例子:
A.在网页设计师做好静态网页时,往往将链接设为”#”.在php程序员套程序时,经常有一些链接会忘了修改过来,留下很多置为”#”的坏链接。hyer在解析网页是遇到链接时,会产生一个new_original_url的事件,如果您的插件,设定在这个事件中检查新链接是否为”#”,如果是“#”就输出一个提示和当前页面的地址。这样这个插件就可以帮我们检查整个站点的程序套完了没有,有没有链接没有修改。
B.同上,在某个链接无法访问是,也有一个事件:url_fetch_error被激发。如果我们的插件设定此时输入URL地址,就可以做成一个死链检查工具。


地址:http://code.google.com/p/hyer/

不过已经被搬到:

https://github.com/xurenlu/hyer

去了。


有兴趣的筒靴可以看看源码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值