Python学习笔记_5.1初识Scrapy（复习——爬图片链接）

最新推荐文章于 2020-12-08 06:31:27 发布

zpf_37

最新推荐文章于 2020-12-08 06:31:27 发布

阅读量228

点赞数

分类专栏： Pyhton 文章标签： Python

本文链接：https://blog.csdn.net/weixin_36835848/article/details/81611929

版权

Pyhton 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import scrapy
from Study_1.items import Study1Item#与itmes文件建立关联
from scrapy.loader import ItemLoader#使用ItemLoader序列化数据

class MoeSpider(scrapy.Spider):
    name = 'moe'#爬虫名
    allowed_domains = ['moe.005.tv']#爬虫域
    start_urls = ["http://moe.005.tv/72845_2.html"]#爬虫入口

    def parse(self, response):
        page = int(response.url.split("_")[-1].split(".")[0])  # 抓取页码
        MoeItemLoader=ItemLoader(item=Study1Item(),response=response)#实例化Itemloader第一个参数必须是实例化对象
        MoeItemLoader.add_xpath("src","//img/@src")#xpath抓取本页面所有Src链接
        Moe_item=MoeItemLoader.load_item()#提取好的数据Load出来
        yield Moe_item
        pass
        next_page = page + 1#实现翻页
        next_url = response.url.replace("{0}.html".format(page), "{0}.html".format(next_page))
        yield scrapy.Request(url=next_url, callback=self.parse)
        pass

分析：Moe 网站爬全站思路：分三层循环，最外层控制翻页中间层抓取所有Href地址最内层抓取子页面所有图片

Mark日后完善

zpf_37

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python学习笔记_5.1初识Scrapy（复习——爬图片链接）

# -*- coding: utf-8 -*-import scrapyfrom Study_1.items import Study1Item#与itmes文件建立关联from scrapy.loader import ItemLoader#使用ItemLoader序列化数据class MoeSpider(scrapy.Spider): name = 'moe'#爬虫名 ...
复制链接

扫一扫