【Python】URL深度采集+源码分析

现在市面上URL采集工具大把大把的,重复造轮子也没有啥意思

但是还会执着写了这个工具,一是用自己的安全无后门担忧,二是写工具的能提高自身水平,三主要是市面上url采集工具不够强,抓取力度不够...

我的URL采集工作假设工程:
                              1.子域名
                              2.友情链接
                              3.同IP站点

      A 首先百度采集URL
          B  查询旁站    
              C  对旁站以及主站爬行友情链接
                  ## C段查询
                 D   对爬行到的友情链接继续在查询旁站
                             E  最后的结果逐个查询子域名                    这是我写的构架思路,最后完成后发现用一个初始url做测试爬行出来了五千多个url.....于是砍了又砍
最终的成果是 :

                               先爬行旁站---------->在爬行旁站和主站的友情链接---------->在爬行友情链接的旁站---------->去重复
   但是这样还是挺大的  用一个url做测试,爬行出来了3000多个网站.........可能是这个url比较大或者比较屌吧......一般小站应该没这么多

  而且还只是一个url啊,就算用我自己博客之前写的url采集工具采集一次也能采集到几百个url,几百个url放进去进行深度采集去重复后还能剩下几万个url

查询旁站的时候我在站长工具&webscan&等等一系列的平台测试后,最终

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪子燕青啦啦啦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值