Scrapy-多层爬取天堂图片网

 

   1.根据图片分类对爬取的图片进行分类

    开发者选项 --> 找到分类地址

          爬取每个分类的地址通过回调函数传入下一层
 
  
name = 'sky'
start_urls = ['http://ivsky.com/']

def parse(self, response):

selector = Selector(response)
# print(response.text)
types = selector.xpath("//div[@class='kw']/a")
for type in types:
typeUrl = type.xpath("@href").extract()[0]    #分类地址
typeName = type.xpath("text()").extract()[0]   #分类名称
# print(typeUrl+" "+typeName)
yield Request(self.start_urls[0]+typeUrl,callback=self.parseTotalPage,meta={'typeName':typeName})
   2.点击进入一个类型 --> 开发者选项 --> 找到分页代码段

      爬取每一个分页的地址也是通过回调函数传入下一层进行处理

    def parseTotalPage(self,response):

        typeName = response.meta["typeName"]
        # print(typeName)
        selector = Selector(response)
        # print(response.text)
        pageList = selector.xpath("//div[@class='pagelist']//a//@href").extract() #每一页的地址
        for page in pageList:
            yield Request(self.start_urls[0]+page,callback=self.parseGetImg,meta={'typeName':typeName})

   3.获取一类图地址 --> 开发者选项 --> 找到相同类图的地址

     

    爬取这类图的地址通过回调函数传入下一层进行处理
def parseGetImg(self,response):

typeName = response.meta["typeName"]
selector = Selector(response)
imgs = selector.xpath("//div[@class='il_img']//a")
for img in imgs:
imgUrl = img.xpath("@href").extract()[0]  #一类图的地址
# print(imgUrl+" "+imgName)
yield Request(self.start_urls[0]+imgUrl,callback=self.parseGetMoreImg)

 

   4.查看每张图片的html代码 --> 找到图片的地址

   

    爬取每张图的地址
 def parseGetMoreImg(self,response):
        # / html / body / div[3] / div[4] / ul / li[3] / div / a / img
        selector = Selector(response)
        # print(response.text)
        items = IvskyItem()
        items["imgName"] = response.meta["imgName"]
        items["imgUrl"] = selector.xpath("//div[@class='il_img']//a//img//@src").extract()
        # print(items)
        yield items

 

 

 最后将图片传入pipelines.py 进行下载处理,要先在setting.py 设置,否则无法进入pipelines.py

ITEM_PIPELINES = {
   'ivsky.pipelines.IvskyPipeline': 300,
}

 代码地址:https://github.com/WitW/ivsky

转载于:https://www.cnblogs.com/SpiderElliot/p/8481527.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值