1.通过命令
scrapy startproject netbian(‘netbian’是项目名称,随便取)
,scrapy genspider xxx xxx,com
新建项目架构,生成项目结构如下,具体自行百度
2.在
items.py
文件自定义数据存储(注: “image_urls”, "images"均为图片管道默认保留字)
# -*- coding: utf-8 -*-
import scrapy
class NetbianItem(scrapy.Item):
# "image_urls", "images"均为图片管道默认保留字
image_urls = scrapy.Field()
images = scrapy.Field()
3.在
netbiand.py
文件中定义爬虫类,并继承scrapy.spider
4.在
settings.py
文件中设置爬取间隔时间
(延迟时间),处理跨域问题
,开启爬虫管道
,定义爬取数据存储路径
5.$ scrapy crawl myspider(此处为爬虫名,即
netbiand.py
文件中的name
对应值)
end~