Scrapy的安装和新建就不再赘述,不明白的可以去查看文档,这里我以一个简单的例子来讲解如何使用框架。爬取豆瓣TOP250的电影信息。
1.新建Scrapy项目
首先新建一个框架项目后你会得到如下的树形结构的文件。
-
spiders:用于编写爬虫。
-
item.py:临时保存抓取到的数据,存储方式类似于字典。
-
middlewares.py:项目中间件,可以自定义插入代码扩展Scrapy功能。
-
pipelines文件:核心处理器。
-
settings.py:项目设置文件。
-
scrapy.pcfg:项目配置文件。
2.编写items.py
这个文件是存储爬取数据的容器,存储形式类似于字典。
Define here the models for your scraped items
See documentation in:
https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class MovieItem(scrapy.Item):
define the fields for your item here like:
name = scrapy.Field()
title = scrapy.Field() # 电影名称
info = scrapy.Field() # 导演与演员
score = scrapy.Field() # 电影评分
evaluation = scrapy.Field() # 评价人数
summary = scrapy.Field() # 电影总结
3.编写settings.py
全局设置都在这里,例如我们可以设置爬取间隔为1s。新建项目里面会有很多代码是注释的,我们不需要改动,需要对应的设置的时候再查看即可。
4.编写爬虫逻辑
爬虫逻辑我们统一写在spider文件下,即在spider文件夹下新建.py文件。
-- coding: utf-8 --
@Time : 2021/9/17 16:30
@Author : KK
@File : douban.py
@Software: PyCharm
-- coding: utf-8 --
import re
import s