版本scrapy==2.5.1
目标url是图片、图片下载、高清图片、图片大全_站长素材,选择爬取第一页的高清图片。利用xpath去进行数据解析的工作。
利用terminal使用命令scrapy startproject imgsPro创建一个新的项目
之后需要将文件位置转移到imgsPro,利用命令cd imgsPro(返回上一层使用命令cd ..),然后使用命令scrapy genspider img www.xxx.com创建出一个py文件。
首先,项目大体结构有:
- test1
- ├─imgsPro
- ├─imgs
- ├─imgsPro
- ├─spiders
- ├─__init__.py
- ├─img.py
- ├─__init__.py
- ├─items.py
- ├─pipelines.py
- ├─middlewares.py
- ├─settings.py
- ├─scrapy.cfg
img.py
import scrapy
from imgsPro.items import ImgsproItem
class ImgSpider(scrapy.Spider):
name = 'img'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://sc.chinaz.com/tupian/']
def parse(self, response):
div_list = response.xpath('//*[@id="container"]/div')
for div in div_list:
src = 'https:' + div.xpath('./div/a/img/@src2').extract_first()
p