python爬虫-scrapy框架环境安装及其使用方法

最新推荐文章于 2021-07-25 11:44:21 发布

rds.

最新推荐文章于 2021-07-25 11:44:21 发布

阅读量199

点赞数

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_51182221/article/details/118977146

版权

爬虫专栏收录该内容

12 篇文章 0 订阅

订阅专栏

首先是scrapy库的安装
请添加图片描述
接着是scrapy工程创建，在下面的terminal中输入相应的指令进行scrapy工程的创建。scrapy startproject '工程名称'
注意:是startproject （下面图片2输入是错误的）

在这个工程文件夹中，spiders中是放的爬虫文件的源码，setting文件是配置文件
请添加图片描述
如果要执行一个工程就在terminal中输入scrapy crawl '爬虫工程名称'
我们来看一个刚刚创建的爬虫源码文件内容

import scrapy


class FirstSpiderExampleSpider(scrapy.Spider):
    #三个属性
    name = 'first_spider_example' #第一个属性是name 是爬虫文件唯一标识
    allowed_domains = ['www.xxx.com'] #第二个属性是允许访问域名，（只允许访问的域名）一般都会将其注释掉
    start_urls = ['http://www.xxx.com/'] #第三个属性是 起始的url列表，当执行这个爬虫文件的时候，会自动的得到所有这个起始url列表中的所有url的response对象
    #用作于数据解析，
    def parse(self, response):
        pass