Scrapy框架及用法(含实例)

Scrapy库的安装

打开终端执行pip install scrapy,也可以使用镜像命令。

Scrapy爬虫框架结构

在这里插入图片描述
需要用户编写的只有:SPIDERS模块和ITEM PIPELINES模块

  • Engine模块:控制所有模块之间的数据流,不需要用户修改
  • Downloader模块:根据请求下载网页,不需要用户修改
  • Scheduler模块:对所有爬去请求进行调度管理,不需要用户修改
  • Spider模块:解析Downloader返回的响应(Response),产生爬取项(scraped item),产生额外的爬取请求(Request)
  • Item Pipelines:以流水线的方式处理Spider产生的爬取项。
Scrapy命令行

Scrapy是为持续运行设计的专业爬虫框架,提供操作Scrapy命令行。

scrapy <command> [options] [args]

命令说明格式
startproject创建一个新工程scrapy startproject <name> [dir]
genspider创建一个新爬虫scrapy genspider [options] <name> <domain>
setting获取爬虫配置信息scrapy setting [options]
crawl运行一个爬虫scrapy crawl <spider>
list列出工程中的所有爬虫scrapy list
shell启动URL调试命令行scrapy shell [url]
Scrapy用法

新建一个工程python123demo:

D:\pydemo>scrapy startproject python123demo

产生一个爬虫demo:

D:\pydemo\python123demo>scrapy genspider demo python123.io

此时在spiders目录下生成了一个demo.py文件
配置产生的spider爬虫:

# -*- coding: utf-8 -*-
import scrapy
class DemoSpider(scrapy.Spider):
    name = "demo"
    #allowed_domains = ["python123.io"]
    start_urls = ['https://python123.io/ws/demo.html']
    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % name)

运行爬虫:

D:\pydemo\python123demo>scrapy crawl demo

之后会生成一个html文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唱戏先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值