文章目录
一、win10安装Scrapy
(1)有两种办法,一是用Anaconda安装,进入命令行,输入
conda install scrapy
为什么会这么简单呢?因为Anaconda已经安装好Scrapy 所需要的依赖库了。
等待安装进度完成后,界面如下:
(2)二是用pip安装,pip无法直接安装scrapy框架,需要先安装很多依赖库,自行。
二、检测是否安装成功
三、Scrapy框架介绍
制作Scrapy爬虫只需4步:
(1)新建项目
(2)新建爬虫:
(2-1)编写 Items.py:明确你要抓取的目标
(2-2)制作爬虫.py:编写爬虫文件
(2-3)存储内容 pipelines.py:设计管道存储爬取内容
注明出处:Scrapy框架基础 讲解及教程 - https://blog.csdn.net/qq_41500222/article/details/82850582
四、编写第一个爬虫
1、创建一个工程
按住shift-右键-在此处打开命令窗口,输入scrapy startproject +工程名
创建成功,打开文件夹目录如下:
.
├── 工程名
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
└── scrapy.cfg
解释文件:
spiders:放置 spider 代码的目录文件 spiders(用于编写爬虫)
items.py:用于保存所抓取的数据的容器,其存储方式类似于 Python 的字典
middlewares.py:下载中间件,提供一种简便的机制,当做一个自定义扩展下载功能的组件。
pipelines.py:核心处理器,定义Item Pipeline的实现,实现数据的清洗,储存,验证。
settings.py:设置文件
scrapy.cfg:配置文件
自主设置:
2、定义Item
item是保存爬取数据的容器,类似字典。首先根据需要从quotes.toscrape获取到的数据对item进行建模:
编辑 tutorial 目录中的 items.py 文件,在item中定义我们想要抓取的字段,如下
import scrapyclass QuoteItem(scrapy.Item):
# define the fields for your item here like:
name