ruby 爬虫 Spidr 用法

最新推荐文章于 2024-07-17 16:21:09 发布

tamiaode

最新推荐文章于 2024-07-17 16:21:09 发布

阅读量811

点赞数 1

Spidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。

安装方法：sudo gem install spidr

从一个网址开始爬

  Spidr.start_at('http://tenderlovemaking.com/')

爬一个host:
```
  Spidr.host('coderrr.wordpress.com')
```
爬一个网站：
```
  Spidr.site('http://rubyflow.com/')
```

多个 hosts:

  Spidr.start_at(
    'http://company.com/',
    :hosts => [
      'company.com',
      /host\d\.company\.com/
    ]
  )

忽略某个地址:

  Spidr.site('http://matasano.com/', :ignore_links => [/log/])

忽略端口:

  Spidr.site(
    'http://sketchy.content.com/',
    :ignore_ports => [8000, 8010, 8080]
  )

打印出爬到的网址:

  Spidr.site('http://rubyinside.org/') do |spider|
    spider.every_url { |url| puts url }
  end

打印出失败的网址:

  Spidr.site('http://sketchy.content.com/') do |spider|
    spider.every_failed_url { |url| puts url }
  end

搜索 HTML 或 XML 页面:

  Spidr.site('http://company.withablog.com/') do |spider|
    spider.every_page do |page|
      puts "[-] #{page.url}"

      page.search('//meta').each do |meta|
        name = (meta.attributes['name'] || meta.attributes['http-equiv'])
        value = meta.attributes['content']

        puts "    #{name} = #{value}"
      end
    end
  end

打印出每个页面的title:

  Spidr.site('http://www.rubypulse.com/') do |spider|
    spider.every_html_page do |page|
      puts page.title
    end
  end

F访问表头来获取网站用的那种web servers:

  servers = Set[]

  Spidr.host('generic.company.com') do |spider|
    spider.all_headers do |headers|
      servers << headers['server']
    end
  end

在被禁止的页面停止spider:

  spider = Spidr.host('overnight.startup.com') do |spider|
    spider.every_forbidden_page do |page|
      spider.pause!
    end
  end

跳过处理一些页面:

  Spidr.host('sketchy.content.com') do |spider|
    spider.every_missing_page do |page|
      spider.skip_page!
    end
  end

跳过处理一些链接:

  Spidr.host('sketchy.content.com') do |spider|
    spider.every_url do |url|
      if url.path.split('/').find { |dir| dir.to_i > 1000 }
        spider.skip_link!
      end
    end
  end

tamiaode

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ruby 爬虫 Spidr 用法

Spidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。安装方法：sudo gem install spidr从一个网址开始爬 Spidr.start_at('http://tenderlovemaking.com/')爬一个host: Spidr.host('coderrr.wordpress.com')
复制链接

扫一扫