scrapy简介-scrapy框架1-python

gaog2zh

于 2022-02-21 17:49:54 发布

阅读量616

点赞数

分类专栏： Python 文章标签： scrapy

本文链接：https://blog.csdn.net/gaogzhen/article/details/123052334

版权

Python 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

scrapy官方文档地址:https://docs.scrapy.org/en/latest/

1、scrapy简介

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

简单说呢就是一个爬虫框架，bb一堆那么怎么用呢？

2、入门示例

关于scrapy的安装，自行查阅相关文档。

以文档scrapy tutorial(scrapy手册)中的示例为例，代码如下：

原始页面如下：在这里插入图片描述

有下一页：在这里插入图片描述

代码如下：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    # 起始url
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'author': quote.xpath('span/small/text()').get(),
                'text': quote.css('span.text::text').get(),
            }

        # 抓取下一页
        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

名词解析：

start_urls：要爬取的页面列表
parse()：解析爬取的页面
response.css()：css语法获取数据
response.xpath()：xpath语法获取数据
.get()：获取选中第一个

非项目运行命令：

scrapy runspider xxx.py

若想要将结果存储为json文件，可添加如下参数：

scrapy runspider xxx.py -o yyy.json

若想要将结果存储为其他格式文件中，可添加如下参数：

scrapy runspider xxx.py -o xxx.zzz -t zzz

xxx,yyy为自定义的名称
zzz为文件扩展名

源代码仓库地址：https://gitee.com/gaogzhen/python-study

QQ群：433529853

gaog2zh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
scrapy简介-scrapy框架1-python

scrapy官方文档地址:https://docs.scrapy.org/en/latest/1、scrapy简介Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。简单说呢就是一个爬虫框架，bb一堆那么怎么用呢？2、入门示例关于scrapy的安装，自行查阅相关文档。以文档scrapy tutorial(scrapy手册)中的示例为例，代码如下：原始页面如下：
复制链接

扫一扫