Python爬虫之框架Scrapy

最新推荐文章于 2024-07-21 14:00:00 发布

Nathan Yuan

最新推荐文章于 2024-07-21 14:00:00 发布

阅读量215

点赞数

分类专栏： Python爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_41998772/article/details/106601893

版权

Python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

在这里插入图片描述
Scrapy爬虫的命令行逻辑为什么Scrapy采用命令行创建和运行爬虫？
命令行（不是图形界面）更容易自动化，适合脚本控制。
本质上，Scrapy是给程序员用的，功能（而不是界面）更重要。

一、产生步骤

步骤1：建立一个Scrapy爬虫工程
用命令行在E盘的pycodes文件夹中建立一个工程python123demo 在这里插入图片描述

步骤2：在工程中产生一个Scrapy爬虫

新增文件代码

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'#爬虫名称
    allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/']#所爬取网页

    def parse(self, response):#parse0用于处理响应，解析内容形成字典，发现新的URL爬取请求。
        pass

步骤3：配置产生的spider爬虫（修改demo.py文件）

# -*- coding: utf-8 -*-
import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['https://python123.io/ws/demo.html']

    def parse(self, response):#对返回页面进行解析和操作
        fname = response.url.split('/')[-1]
        with open(fname, "wb") as f:
            f.write(response.body)
        self.log("Saved file %s."%name)

步骤4：运行爬虫，获取网页。
在这里插入图片描述
捕获页面成功，以html格式存储在pycodes中

demo.py代码的完整版本

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    def start_requests(self):
        urls = [
                'https://python123.io/ws/demo.html'
               ]
        for url in urls:
            yield scrapy.Request(url = url ,callable = self.parse())
    
    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, "wb") as f:
            f.write(response.body)
        self.log("Saved file %s."%name)