这是一个python写就的spider,目前很小,只有几K,但是已经可以支持robots.txt协议和cookies,并且加入了事件机制,因为可以方便地为这个项目开发插件。有了插件的支持,这个spider就可以用来做各种各样的事情,用在各种目的上。
举些例子:
A.在网页设计师做好静态网页时,往往将链接设为”#”.在php程序员套程序时,经常有一些链接会忘了修改过来,留下很多置为”#”的坏链接。hyer在解析网页是遇到链接时,会产生一个new_original_url的事件,如果您的插件,设定在这个事件中检查新链接是否为”#”,如果是“#”就输出一个提示和当前页面的地址。这样这个插件就可以帮我们检查整个站点的程序套完了没有,有没有链接没有修改。
B.同上,在某个链接无法访问是,也有一个事件:url_fetch_error被激发。如果我们的插件设定此时输入URL地址,就可以做成一个死链检查工具。
地址:http://code.google.com/p/hyer/
不过已经被搬到:
https://github.com/xurenlu/hyer
去了。
有兴趣的筒靴可以看看源码