四、网络爬虫之框架（2）

最新推荐文章于 2024-09-11 18:01:31 发布

HolllllldOn

最新推荐文章于 2024-09-11 18:01:31 发布

阅读量133

点赞数

分类专栏：爬虫笔记（MOOC Python网络爬虫与信息提取）文章标签： python

本文链接：https://blog.csdn.net/HolllllldOn/article/details/107412890

版权

爬虫笔记（MOOC Python网络爬虫与信息提取）专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Scrapy的基本使用

1.Scrapy爬虫的第一个实例

演示HTML页面地址：http://python123.io/ws/demo.html
文件名称：demo.html

生产步骤

应用Scrapy爬虫框架主要是编写配置型代码

步骤1：建立一个Scrapy爬虫工程

选取一个目录（D:\pycodes\），然后执行如下命令：
在这里插入图片描述

步骤2：在工程中产生一个Scrapy爬虫

进入工程目录（D:\pycodes\python123demo），然后执行如下命令：
在这里插入图片描述
该命令作用：
(1) 生成一个名称为demo的spider
(2) 在spiders目录下增加代码文件demo.py
该命令仅用于生成demo.py，该文件也可以手工生成

步骤3：配置产生的spider爬虫

配置：（1）初始URL地址（2）获取页面后的解析方式

import scrapy


class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']#设置地址

    def parse(self, response):
        fname = response.url.split('/')[-1]#存为HTML文件
        with open(fname,'wb') as f:
            f.write(response.body)
        self.log('save file %s.' % name)