ruby 爬虫 Spidr 用法

Spidr 是一个Ruby 的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。


安装方法:sudo gem install spidr

  • 从一个网址开始爬
      Spidr.start_at('http://tenderlovemaking.com/')
    
  • 爬一个host:
      Spidr.host('coderrr.wordpress.com')
    
  • 爬一个网站:
      Spidr.site('http://rubyflow.com/')
    
  • 多个 hosts:
      Spidr.start_at(
        'http://company.com/',
        :hosts => [
          'company.com',
          /host\d\.company\.com/
        ]
      )
    
  • 忽略某个地址:
      Spidr.site('http://matasano.com/', :ignore_links => [/log/])
    
  • 忽略端口:
      Spidr.site(
        'http://sketchy.content.com/',
        :ignore_ports => [8000, 8010, 8080]
      )
    
  • 打印出爬到的网址:
      Spidr.site('http://rubyinside.org/') do |spider|
        spider.every_url { |url| puts url }
      end
    
  • 打印出失败的网址:
      Spidr.site('http://sketchy.content.com/') do |spider|
        spider.every_failed_url { |url| puts url }
      end
    
  • 搜索 HTML 或 XML 页面:
      Spidr.site('http://company.withablog.com/') do |spider|
        spider.every_page do |page|
          puts "[-] #{page.url}"
    
          page.search('//meta').each do |meta|
            name = (meta.attributes['name'] || meta.attributes['http-equiv'])
            value = meta.attributes['content']
    
            puts "    #{name} = #{value}"
          end
        end
      end
    
  • 打印出每个页面的title:
      Spidr.site('http://www.rubypulse.com/') do |spider|
        spider.every_html_page do |page|
          puts page.title
        end
      end
    
  • F访问表头来获取网站用的那种web servers:
      servers = Set[]
    
      Spidr.host('generic.company.com') do |spider|
        spider.all_headers do |headers|
          servers << headers['server']
        end
      end
    
  • 在被禁止的页面停止spider:
      spider = Spidr.host('overnight.startup.com') do |spider|
        spider.every_forbidden_page do |page|
          spider.pause!
        end
      end
    
  • 跳过处理一些页面:
      Spidr.host('sketchy.content.com') do |spider|
        spider.every_missing_page do |page|
          spider.skip_page!
        end
      end
    
  • 跳过处理一些链接:
      Spidr.host('sketchy.content.com') do |spider|
        spider.every_url do |url|
          if url.path.split('/').find { |dir| dir.to_i > 1000 }
            spider.skip_link!
          end
        end
      end
    


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值