Scrapy框架(一. 快速入门)

Scrapy框架(一. 快速入门)





目录:


一. Scrapy初识:

​          1.官网 :https://scrapy.org/

​          2. Scrapy是什么?

​          3. Scrapy可以用来干什么?

二. 下载Scrapy库

三. 使用Scrapy框架,步骤(这里以 www.baidu.com 为例)

​                            1. 新建项目

​                            2. 明确目标 (编写items.py文件) target_name = scrapy.Field()

​                             3. 制作爬虫文件 (spiders/xxx.py)

​                                                         a. 创建爬虫文件 scrapy genspider baidu 'baidu.com'

​                                                        b. 编写爬虫代码

​                            4. 持久化存储爬取的数据

​                             这里将单独编写一篇博客讲解,如何使用Scrapy框架进行持久化存储数据 :

​                                                                                   点击跳转至该博客

​                             5.执行Scrapy程序、获取数据

                                                      输入命令: scrapy crawl baidu

一. Scrapy初识 :

   

Scrapy是适用于Python网络爬虫的应用框架

​             框架内的各个部分相互协调,最终实现爬取目标数据

在这里插入图片描述

Scrapy 功能 :

  1. 通常 Scrapy 框架用于爬取指定网站的内容或图片,并进行持久化存储
  2. 数据挖掘
  3. 信息处理
  4. 存储历史数据
  5. 监测
  6. 自动化测试



二. 下载Scrapy库:(cmd 打开命令提示符窗口, 分别输入)
  1. 升级pip :

    ​ python -m pip install --upgrade pip

  1. 安装scrapy库:

    ​ pip install scrapy

也可在pyCharm中分别对pip进行升级、对scrapy库进行下载



三. Scrapy项目

1. 新建项目: (这里以创建一个 名为MyspiderName的项目为例)

   通过PyCharm 中的Terminal窗口,输入命令:
                                             scrapy start MyspiderName

​   创建完成,则自动生成一系列文件:

在这里插入图片描述


2. 明确目标(编写items.py文件):

以 TargetName = scrapy.Field() 格式编写 (TargetName: 目标名称)

在这里插入图片描述


3. 制作爬虫文件

a. 创建爬虫文件:

在这里插入图片描述


b. 编写爬虫代码

i. 简单粗暴,直接输出响应的文本形式、将自动生成的pass注释掉
在这里插入图片描述

ii. 由于Scrapy默认服从robots.txt协议(取消注释、将True改为False)

在这里插入图片描述

5. 执行程序、获取数据

在PyCharm中Terminal窗口中输入 scrapy crawl baidu命令
在这里插入图片描述

等待,则输出响应的文本格式
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值