Scrapy(一):简介及安装

Scrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用,灵活易拓展,并且支持跨平台。
pip安装Scrapy: pip install scrapy
确认成功:
在这里插入图片描述简单做个Scrapy项目(以http://books.toscrape.com网站为例,获取所有图书的书名和价格信息)
一: 创建项目
在shell中使用 scrapy startproject XX(项目名称) 命令.
在这里插入图片描述二:分析页面(在页面上右键-检查)
书本相关信息
在这里插入图片描述下一页链接地址分析
在这里插入图片描述三: 实现spider
在第一步创建的项目文件下创建spider
在这里插入图片描述或者指定域名范围创建spider
在这里插入图片描述Spider(book.py)内容

# -*- coding: utf-8 -*-
import scrapy

class BookSpider(scrapy.Spider):
    name = 'book'
    # allowed_domains = ['http://books.toscrape.com/']
    start_urls = ['http://books.toscrape.com//']

    def parse(self, response):
        # 提取数据
        # 每一本书的信息
        for book in response.css('article.product_pod'):
            # 书名信息
            name = book.xpath("./h3/a/@title").extract_first()
            # 价格信息
            price = book.css("p.price_color::text").extract_first()
            yield {
                "name": name,
                "price": price
            }
        # 提取链接
        next_url = response.xpath("//li[@class='next']/a/@href").extract_first()
        if next_url:
            next_url = response.urljoin(next_url)
            yield scrapy.Request(next_url, callback=self.parse)

四:运行并存储为json文件
scrapy crawl book -o book.json
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Enougme

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值