Python爬虫：scrapy基本使用（初始化配置）

最新推荐文章于 2024-04-10 09:54:10 发布

外出的霍比特人

最新推荐文章于 2024-04-10 09:54:10 发布

阅读量545

点赞数 1

分类专栏： Python爬虫文章标签： python 大数据

本文链接：https://blog.csdn.net/qq_39375237/article/details/109957033

版权

Python爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

什么是框架：集成了很多功能并且具有很强通用性的一个项目模板

如何学习框架：专门学习框架封装的各种功能的详细用法

什么是scrapy：爬虫中封装好的一个明星框架，功能：高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式

创建一个工程：

在cmd命令行中：
1、cd xxxxxx（文件夹名称，用来存放工程）
2、scrapy startproject xxxxxx（工程名称）
3、cd xxxxxx（工程名称）
4、在spiders子目录中创建一个爬虫文件：
scrapy genspider spiderName www.xxx.com
其中spiderName是爬虫文件的名称，可以自己设置
其中www.xxx.com是url，可以自己设置
5、执行工程：scrapy crawl spiderName

settings.py是配置文件，需要经常使用。
修改里面的ROBOTSTXT_OBEY = False
LOG_LEVEL = ‘ERROR’ #显示指定类型的日志信息
修改里面的USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’

以下是创建的爬虫文件的基本框架：

import scrapy

#Spider是父类
class FirstSpider(scrapy.Spider):
    #爬虫文件的名称：爬虫源文件的一个唯一标识
    name = 'first'
    #允许的域名：用来限定start_urls列表中哪些url可以进行请求发送，一般不用
    # allowed_domains = ['www.baidu.com']

    #起始的url列表：该列表中存放的url会被scrapy自动进行请求的发送
    start_urls = ['https://www.baidu.com/','https://www.sogou.com/']    #列表中可以有多个url

    #用作于数据解析：response参数表示的是请求成功后对应的响应对象
    #parse函数会被调用多次，调用的次数等于start_urls里面url的数量
    def parse(self, response):
        print(response)

外出的霍比特人

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：scrapy基本使用（初始化配置）

什么是框架：集成了很多功能并且具有很强通用性的一个项目模板如何学习框架：专门学习框架封装的各种功能的详细用法什么是scrapy：爬虫中封装好的一个明星框架，功能：高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式创建一个工程：在cmd命令行中：1、cd xxxxxx（文件夹名称，用来存放工程）2、scrapy startproject xxxxxx（工程名称）3、cd xxxxxx（工程名称）4、在spiders子目录中创建一个爬虫文件：scrapy genspider spid
复制链接

扫一扫