记录下scrapy学习使用过程,后续想起来写的时候会更新。
项目流程
在想要创建scrapy文档的位置打开cmd,进入对应的虚拟环境
1. 新建项目
scrapy startproject 爬虫文件名
生成文件结构如下:
mySpider/ # 根目录
scrapy.cfg
mySpider/ # 二级目录
__init__.py
items.py # 需要改写,定义存储结构
pipelines.py
settings.py
spiders/ # 三级目录
__init__.p
在三级目录mySpider/spiders下:
scrapy genspider 爬虫名称 "爬取域范围"
在当前目录下自动生成一个 爬虫名称.py 文件,也可以手动创建后粘贴下面代码:
import scrapy
class ItcastSpider(scrapy.Spider):
name = "爬虫名称"
allowed_domains = ["爬取域范围"]
start_urls = (
'http://www.爬取域范围/',
)
def parse(self, response):
pass
在根目录下新建 begin.py 文件,并将下面的代码粘贴进去:
from scrapy import cmdline
cmdline.execute("scrapy crawl spiName".split())
# spiName为爬虫名字,在spider.py中定义
注意将项目启动目录修改到 begin.py 文件
2. 确定目标
编写 items.py 文件,明确抓取目标
3. 制作爬虫
spiders.py 制作爬虫
4. 存储内容
pipelines.py 设计管道存储内容