学习笔记:网络机器人:7.0Scrapy

本文介绍了Scrapy网络爬虫的基本组件,包括引擎、调度器、下载器和蜘蛛,并详细阐述了爬取流程。通过在Windows上安装Scrapy,创建项目及爬虫,展示了如何启动和运行爬虫。接着,通过实例讲解了如何使用Scrapy提取数据,包括CSS和XPath选择器的运用。最后,提出了实战解析,计划提取特定类名的内容并储存到TXT文件。
摘要由CSDN通过智能技术生成

引擎(Scrapy Engine)
调度器(Scheduler)
下载器(Downloader)
蜘蛛(Spiders)
项目管道(Item Pipeline)
爬取流程
针对每个URL, Scheduler->Downloader->Spider->

  1. 如果返回的是新的URL, 就会返回Scheduler
  2. 如果是需要保存的数据, 则会被放到item pipeline里面

Windows系统: pip install scrapy

创建项目
进入要存储代码的目录 (命令行下)
然后输入 scrapy startproject tutorial
目录结构
tutorial/ scrapy.cfg # 部署配置文件
tutorial/ # 项目的 Python 模块,从这里加入自己的代码 init.py
items.py # 项目的 item 定义文件
pipelines.py # 项目的 pipelines 文件
settings.py # 项目的 settings 文件
spiders/ # 放置spider代码的目录.
init.py
第一个Scrapy爬虫
我们以一个例子说明
爬取http://quotes.toscrape.com/
在项目根目录运行 scrapy genspider quotes quotes.toscrape.com 会在spider文件夹中自动生成如下文件

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        pass

start_requests 的快捷方式

# -*- coding: utf-8 -*-
import scrapy  # 导入scrapy模块

class QuotesSpider(scrapy.Spider):  # 定义爬虫类
    name = 'quotes'  # 命名
    start_urls = ['http://quotes.toscrape.com/page/1/',
                  'http://quotes.toscrape.com/page/2/'
                  ]  # 爬取url

    def parse(self, response):  # 定义分析函数
        page=response.url.split('/')[-2]  # 取出页码
        file_name='quotes-{}.html'.format(page)  # 命名文件
        with
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值