现在市面上URL采集工具大把大把的,重复造轮子也没有啥意思
但是还会执着写了这个工具,一是用自己的安全无后门担忧,二是写工具的能提高自身水平,三主要是市面上url采集工具不够强,抓取力度不够...
我的URL采集工作假设工程:
1.子域名
2.友情链接
3.同IP站点
A 首先百度采集URL
B 查询旁站
C 对旁站以及主站爬行友情链接
## C段查询
D 对爬行到的友情链接继续在查询旁站
E 最后的结果逐个查询子域名 这是我写的构架思路,最后完成后发现用一个初始url做测试爬行出来了五千多个url.....于是砍了又砍
最终的成果是 :
先爬行旁站---------->在爬行旁站和主站的友情链接---------->在爬行友情链接的旁站---------->去重复
但是这样还是挺大的 用一个url做测试,爬行出来了3000多个网站.........可能是这个url比较大或者比较屌吧......一般小站应该没这么多
而且还只是一个url啊,就算用我自己博客之前写的url采集工具采集一次也能采集到几百个url,几百个url放进去进行深度采集去重复后还能剩下几万个url
查询旁站的时候我在站长工具&webscan&等等一系列的平台测试后,最终