scrapy简介-scrapy框架1-python

scrapy官方文档地址:https://docs.scrapy.org/en/latest/

1、scrapy简介

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试

简单说呢就是一个爬虫框架,bb一堆那么怎么用呢?

2、入门示例

关于scrapy的安装,自行查阅相关文档。

以文档scrapy tutorial(scrapy手册)中的示例为例,代码如下:

原始页面如下:在这里插入图片描述

有下一页:在这里插入图片描述

代码如下:

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    # 起始url
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }

        # 抓取下一页
        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

名词解析:

  • start_urls:要爬取的页面列表
  • parse():解析爬取的页面
  • response.css():css语法获取数据
  • response.xpath():xpath语法获取数据
  • .get():获取选中第一个

非项目运行命令:

scrapy runspider xxx.py  

若想要将结果存储为json文件,可添加如下参数:

scrapy runspider xxx.py -o yyy.json

若想要将结果存储为其他格式文件中,可添加如下参数:

scrapy runspider xxx.py -o xxx.zzz -t zzz
  • xxx,yyy为自定义的名称
  • zzz为文件扩展名

源代码仓库地址:https://gitee.com/gaogzhen/python-study

QQ群:433529853

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gaog2zh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值