Scrapy爬取斗破苍穹漫画
文章目录
前言
原本想爬取斗罗大陆,项目都创建好了,结果不小心点开了斗破苍穹,太好看了,没有办法便决定爬取斗破苍穹。附上爬取的网页地址:https://www.mkzhan.com/49733/
一、创建项目、创建爬虫
详细创建请参考之前博客或百度自学。
(创建一个名为douluodalu的项目)
cmd命令:scrapy startproject douluodalu
(创建一个名为spider的爬虫)
cmd命令:scrapy genspider -t basic spider mkzhan.com
二、实战
1.items.py如下:
代码如下(示例):
import scrapy
class DouluodaluItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
img = scrapy.Field()
url = scrapy.Field()
2.settings.py如下:
代码如下(示例):
修改以下部分
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
'huaqiangu.pipelines.HuaqianguPipeline': 300,
}
3.pipelines.py如下:
这里对获得到的图片的url进行爬取,保存到本地文件夹下:
代码如下(示例):
import os
import requests
import sys