Scrapy spider代码片段

最新推荐文章于 2022-05-10 17:17:14 发布

松林小鼠

最新推荐文章于 2022-05-10 17:17:14 发布

阅读量559

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/allen_hdh/article/details/33726009

版权

Python爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

 
  from  
  scrapy.spider import  
  BaseSpider 
 
 
  from  
  scrapy.selector  
  import  
  HtmlXPathSelector 
 
 
 
 
 
  class  
  MySpider(BaseSpider): 
 
 
      name  
  =  
  'myspider' 
 
 
      start_urls  
  =  
  ( 
 
 
           
  'http://' 
  , 
 
 
           
  'http://' 
  , 
 
 
          ) 
 
 
       
  def  
  parse( 
  self 
  , response): 
 
 
           
  # collect `item_urls` 
 
 
           
  for  
  item_url  
  in  
  item_urls: 
 
 
               
  yield  
  Request(url 
  = 
  item_url, callback 
  = 
  self 
  .parse_item_list) 
 
 
       
  def  
  parse_item_list( 
  self 
  , response): 
 
 
          item  
  =  
  MyItem() 
 
 
           
  # populate `item` fields 
 
 
           
  yield  
  Request(url 
  = 
  item_details_url, meta 
  = 
  { 
  'item' 
  : item}, 
 
 
              callback 
  = 
  self 
  .parse_details) 
 
 
       
  def  
  parse_details( 
  self 
  , response): 
 
 
          item  
  =  
  response.meta[ 
  'item' 
  ] 
 
 
           
  # populate more `item` fields 
 
 
           
  return  
  item 
 

 
 
 
 
 from  
 scrapy.contrib.linkextractors.sgml  
 import  
 SgmlLinkExtractor 
 
 class  
 MininovaSpider(CrawlSpider): 
 
     name  
 =  
 '' 
 
     allowed_domains  
 =  
 [ 
 '' 
 ] 
 
     start_urls  
 =  
 [ 
 '' 
 ] 
 
     rules  
 =  
 [Rule(SgmlLinkExtractor(allow 
 = 
 [ 
 '/tor/\d+' 
 ])), 
 
              Rule(SgmlLinkExtractor(allow 
 = 
 [ 
 '/abc/\d+' 
 ]), 
 'parse_torrent' 
 )] 
 
      
 def  
 parse_torrent( 
 self 
 , response): 
 
         x  
 =  
 HtmlXPathSelector(response) 
 
         torrent  
 =  
 TorrentItem() 
 
         torrent[ 
 'url' 
 ]  
 =  
 response.url 
 
         torrent[ 
 'name' 
 ]  
 =  
 x.select( 
 "//h1/text()" 
 ).extract() 
 
         torrent[ 
 'description' 
 ]  
 = 
 x.select( 
 "//div[@id='description']" 
 ).extract() 
 
         torrent[ 
 'size' 
 ]  
 =  
 x.select( 
 "//div[@id='info-left']/p[2]/text()[2]" 
 ).extract() 
 
          
 return  
 torrent 

松林小鼠

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy spider代码片段

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorclass MininovaSpider(CrawlSpider): name = 'mininova.org' allowed_domains = ['mininova.org'] start_urls = ['http
复制链接

扫一扫

专栏目录