01-scrapy框架（一）

最新推荐文章于 2024-08-05 23:13:57 发布

清玫IT

最新推荐文章于 2024-08-05 23:13:57 发布

阅读量62

点赞数

文章标签： scrapy python 爬虫 pycharm

本文链接：https://blog.csdn.net/m0_50989884/article/details/133980389

版权

一.csrapy的介绍

1.scrapy是什么？

异步爬虫框架

scrapy是一个基于python开发的爬虫框架，用于抓取网站并从其页面中提取结构化数据，也是当前python爬虫生态中最流行的爬虫框架，Scrapy框架架构清晰，可扩展性强，可以灵活高效的完成各种爬虫需求。

2.scrapy的优势

1.爬虫必备的技术
2.使爬虫程序效率更高更稳定
3.配置和可扩展性强(灵活)

二.scrapy的安装

1.官网

官方学习网址：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

最新的：https://docs.scrapy.org/en/latest/

2.安装

pip install scrapy==2.5.1 -i https://pypi.douban.com/simple

三.scrapy的工作流程

1.流程拟人化

请添加图片描述

2.scrapy工作流程图

请添加图片描述

3.各个组件功能介绍

1.引擎：核心 cpu 老板控制着整个流程
2.调度器：从引擎发送过来的待发送的请求
3.爬虫程序：负责爬虫的解析处理
4.下载器：发送请求获取相应
5.管道：保存数据
6.下载中间件：位于引擎和下载器中间请求在正式发送出去之前需要经过的组件通过整个下载中间件可以去添加一些请求头，或者用户代理
7.爬虫中间件：位于引擎和爬虫之间

四.scrapy爬虫的基本步骤

1.创建scrapy项目

1.如何在当前文件夹下新建？先求换到当前文件夹下

cmder里面切换路径
法1：直接找到day21 在地址栏上面cmder进去
法2：cd /d C:\Users\Hxs\17-scrapy框架
注意：windows跨盘符切换 加/d

2.创建项目

scrapy startproject myspider
scrapy startproject(固定命令)
myspider(不固定 我们自己起的名字)

3.进入项目下面

cd myspider

4.创建爬虫程序

scrapy genspider example example.com
scrapy genspider (固定的命令)
example：爬虫程序自己的名字（自己命名 不固定 起始就是py文件的名字）
example.com：可以运行爬取的范围（不固定） 根据外面的url来确定 重要

比如说我们的目标url：https://www.douban.com/
scrapy genspider db douban.com  # 此时在spider下面会多出一个db.py文件

五.项目文件介绍

1.爬虫程序文件

下面展示 db.py的代码。

# 导入
import scrapy

# 我们生成的类都会继承scrapy.Spider这个类
class DbSpider(scrapy.Spider):
    # 爬虫程序的名字 必须唯一
    name = 'db'
    # 可以爬取的范围 只能爬取该域名下的网页 不存在会忽略 可以修改
    allowed_domains = ['douban.com']
    # 起始url 因为是自动生成的 一般需要手动修改
    # 爬虫会从这里开始抓取数据
    start_urls = ['https://www.douban.com/']

    # 解析数据
    def parse(self, response, **kwargs):
        # response 是已经发送请求之后得到的相应对象
        # 为什么会高亮 少写了一个形参  **kwargs 不加上也不影响
        '''
        主要作用：解析返回的网页数据 提取数据 可以提取出新的需要请求的url
        :param response:
        :return:
        '''
        print(response.text)  # 获取到的是网页源代码
        pass

2.init文件

init.py的作用时将文件夹变成一个py模块如果没有init文件这个目录只是一个目录不是一个包就不能被导入或者包含别的模块

3. 启动程序

方法1 命令启动

scrapy crawl db （爬虫程序的名字）

方法2 文件启动
在当前项目下新建一个run.py（注意是在项目下）

from scrapy import cmdline

scrapy.execute('scrapy crawl db'.split())

4. 注意：红色的不是保存是运行日志

#设置日志等级（在setting.py中）

LOG_LEVEL = 'WARNING'

#因为我们的日志是debug级别的当我们设置成警告之后低于警告的就不会显示就相当于关闭了日志

#DEBUG WARNING ERROR
#不建议关闭日志可以根据日志信息查错