python:Scrapy框架爬虫入门学习

最新推荐文章于 2024-06-22 16:33:22 发布

S-su

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量460

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/Sunshine_20201/article/details/105943697

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Scrapy框架

Scrapy是Python实现的屏幕抓取和web爬取框架，用于抓取web站点并从页面中提取结构化的数据。
Scrapy:任何人都可以根据需求来修改。

Scrapy架构

在这里插入图片描述

Scrapy框架的安装（Anaconda)

比较具体的安装可以参照我下面链接里的博客，博主已经讲述的很清楚了。我这里只是说明自己的安装过程。
由于我使用的是Anaconda+pycharm，所以先尝试了用pip安装：pip install Scrapy；但是错误百出所以就在Anaconda中安装：conda install scrapy发现这样很轻易就安装了。

Scrapy入门

创建一个 Scrapy 项目。
创建一个 Spider 来抓取站点和处理数据。
通过命令行将抓取的内容导出。
将抓取的内容保存到 MongoDB 数据库。

精细过程(pycharm中）

创建项目：新建一个项目（名为S），在Terminal中输入scrapy startproject S

在这里插入图片描述

创建Spider:在Terminal中输入scrapy genspider [options]
创建Item(保存爬取数据的容器）：

在这里插入图片描述

解析Response:(parse() 方法的参数 response 是 start_urls 里面的链接爬取后的结果。)

改写parse()方法，对response变量包含的内容解析。

使用Item:
后续Request:
运行：命令scrapy crawl Spi结果
保存到文件：

Scrapy 提供的 Feed Exports 可以轻松将抓取结果输出。支持输出格式：JSON、csv、xml、pickle、marshal 等，还支持 ftp、s3 等远程输出。


    scrapy crawl Spi -o Spi.json

    scrapy crawl quotes -o quotes.csv

    scrapy crawl quotes -o quotes.xml

    scrapy crawl quotes -o quotes.pickle

    scrapy crawl quotes -o quotes.marshal