# -*- coding: utf-8 -*-
import scrapy
from Study_1.items import Study1Item#与itmes文件建立关联
from scrapy.loader import ItemLoader#使用ItemLoader序列化数据
class MoeSpider(scrapy.Spider):
name = 'moe'#爬虫名
allowed_domains = ['moe.005.tv']#爬虫域
start_urls = ["http://moe.005.tv/72845_2.html"]#爬虫入口
def parse(self, response):
page = int(response.url.split("_")[-1].split(".")[0]) # 抓取页码
MoeItemLoader=ItemLoader(item=Study1Item(),response=response)#实例化Itemloader第一个参数必须是实例化对象
MoeItemLoader.add_xpath("src","//img/@src")#xpath抓取本页面所有Src链接
Moe_item=MoeItemLoader.load_item()#提取好的数据Load出来
yield Moe_item
pass
next_page = page + 1#实现翻页
next_url = response.url.replace("{0}.html".format(page), "{0}.html".format(next_page))
yield scrapy.Request(url=next_url, callback=self.parse)
pass
分析:Moe 网站 爬全站思路: 分三层循环,最外层控制翻页 中间层 抓取所有Href地址 最内层抓取子页面所有图片
Mark日后完善