python scrapy包的安装及简单使用

最新推荐文章于 2024-06-22 16:33:22 发布

海人001

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量1.4w

点赞数

分类专栏：爬虫项目及相关技能

本文链接：https://blog.csdn.net/Da___Vinci/article/details/82710620

版权

爬虫项目及相关技能专栏收录该内容

23 篇文章 0 订阅

订阅专栏

scrapy简介：

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试

Scrapy架构图(绿线是数据流向)：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

安装方式：

这里选择安装在了python安装文件夹内，而不是项目内

第二中方式：去官网下载安装包，Terminal窗口cmd命令定位到该文件夹，pip install 安装包

安装后，新建文件任意名称，如引用不报错，及安装成功

自动生成项目文件：

使用 scrapy startproject name 自动创建项目

如果出现 scrapy 既不是项目内也不是项目外。。。。,需要你去配置环境变量。

环境变量及是在windows系统中为一个程序提供路径，这样就可以直接调用。下面是我的安装位置。在path中添加即可。

命令运行后的文件内容，至于都是什么，大家可以看scrapy中文，在原官网的中文翻译已经很久没更新了，而且你下载他的例子也不能运行，打开他的reademe文件，可以看到说明部分网站已经停用。下面是国内中文连接http://www.scrapyd.cn/doc/139.html

scrapy简单测试：

随意创建py文件如下

# -*- coding: utf-8 -*-
import scrapy
class mingyanSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://lab.scrapyd.cn/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                '内容': quote.css('span.text::text').extract_first(),
                '作者': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield scrapy.Request(next_page, self.parse)

运行指令： runspider mingyanSpider.py，运行你创建的蜘蛛。-o mingyan.json 将刚才爬到的内容存到json中。


D:\python\Scrapy1>scrapy runspider mingyanSpider.py -o mingyan.csv

标准的爬虫项目：

在spider下面编写py文件

# -*- coding: utf-8 -*-
import scrapy

class DmozSpider(scrapy.spiders.Spider):
    name = "mingyan2"

    def start_requests(self):
        urls = [
            'http://lab.scrapyd.cn/page/1/',
            'http://lab.scrapyd.cn/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'mingyan-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('保存文件: %s' % filename)

运行命令：scrapy crawl mingyan2 即可，如果出现

Unknown command: crawl 提示，说明cmd路径不对，要定位到含有scrapy.cfg的文件夹。例如我的项目,就可以运行了。