Scrapy爬取斗破苍穹漫画

最新推荐文章于 2021-08-19 18:13:26 发布

爱吃鱼人士

最新推荐文章于 2021-08-19 18:13:26 发布

阅读量436

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_46631566/article/details/110497034

版权

本文介绍如何使用Scrapy爬虫框架来抓取斗破苍穹漫画。从创建项目、设置爬虫，到编写items.py、settings.py、pipelines.py和spider.py的代码示例，最后展示爬取完成所需的时间，并推荐了更高效的运行爬虫的方法。

摘要由CSDN通过智能技术生成

Scrapy爬取斗破苍穹漫画

前言

原本想爬取斗罗大陆，项目都创建好了，结果不小心点开了斗破苍穹，太好看了，没有办法便决定爬取斗破苍穹。附上爬取的网页地址：https://www.mkzhan.com/49733/

一、创建项目、创建爬虫

详细创建请参考之前博客或百度自学。
(创建一个名为douluodalu的项目)
cmd命令：scrapy startproject douluodalu
(创建一个名为spider的爬虫）
cmd命令：scrapy genspider -t basic spider mkzhan.com

二、实战

1.items.py如下：

代码如下（示例）：


import scrapy


class DouluodaluItem(scrapy.Item):
	# define the fields for your item here like:
	# name = scrapy.Field()
	title = scrapy.Field()
	img = scrapy.Field()
	url = scrapy.Field()

2.settings.py如下：

代码如下（示例）：
修改以下部分

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   
   'huaqiangu.pipelines.HuaqianguPipeline': 300,
}