Spidr 是一个Ruby 的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。
安装方法:sudo gem install spidr
- 从一个网址开始爬
Spidr.start_at('http://tenderlovemaking.com/')
- 爬一个host:
Spidr.host('coderrr.wordpress.com')
- 爬一个网站:
Spidr.site('http://rubyflow.com/')
- 多个 hosts:
Spidr.start_at( 'http://company.com/', :hosts => [ 'company.com', /host\d\.company\.com/ ] )
- 忽略某个地址:
Spidr.site('http://matasano.com/', :ignore_links => [/log/])
- 忽略端口:
Spidr.site( 'http://sketchy.content.com/', :ignore_ports => [8000, 8010, 8080] )
- 打印出爬到的网址:
Spidr.site('http://rubyinside.org/') do |spider| spider.every_url { |url| puts url } end
- 打印出失败的网址:
Spidr.site('http://sketchy.content.com/') do |spider| spider.every_failed_url { |url| puts url } end
- 搜索 HTML 或 XML 页面:
Spidr.site('http://company.withablog.com/') do |spider| spider.every_page do |page| puts "[-] #{page.url}" page.search('//meta').each do || name = (.attributes['name'] || .attributes['http-equiv']) value = .attributes['content'] puts " #{name} = #{value}" end end end
- 打印出每个页面的title:
Spidr.site('http://www.rubypulse.com/') do |spider| spider.every_html_page do |page| puts page.title end end
- F访问表头来获取网站用的那种web servers:
servers = Set[] Spidr.host('generic.company.com') do |spider| spider.all_headers do |headers| servers << headers['server'] end end
- 在被禁止的页面停止spider:
spider = Spidr.host('overnight.startup.com') do |spider| spider.every_forbidden_page do |page| spider.pause! end end
- 跳过处理一些页面:
Spidr.host('sketchy.content.com') do |spider| spider.every_missing_page do |page| spider.skip_page! end end
- 跳过处理一些链接:
Spidr.host('sketchy.content.com') do |spider| spider.every_url do |url| if url.path.split('/').find { |dir| dir.to_i > 1000 } spider.skip_link! end end end