Scrapy爬取漫客栈漫画实战

最新推荐文章于 2023-07-04 16:16:18 发布

qq_45470310

最新推荐文章于 2023-07-04 16:16:18 发布

阅读量640

点赞数

分类专栏： Python Scrapy 文章标签： python scrapy

本文链接：https://blog.csdn.net/qq_45470310/article/details/107174606

版权

本文通过实例展示了如何使用Python的Scrapy框架高效地爬取漫客栈的漫画内容，详细介绍了爬虫的创建过程，并展示了爬取的数据结构和部分结果。经过爬取，共完成了10961次GET请求，获取了10396个1.2GB的文件，整个过程仅耗时364秒，体现了Scrapy的强大效率。

摘要由CSDN通过智能技术生成

废话不多说，直接上代码
其它自己生成的文件都不用去改，只需要在spiders文件夹内新建两个.py文件就行
1、

cd F:\编程\Python\Scrapy
Scrapy startproject mkz

2、

# in spiders\chapters.py
import scrapy


class ChapterSpider(scrapy.Spider):
    name = "chapter"
    start_urls = ["https://www.mkzhan.com/211692/"]

    def parse(self, response: scrapy.http.Response):
        for chapter in response.css("a.j-chapter-link"):
        	# 在<a>标签内有另外的标签
        	# 所以要用//text()获取所有文本
            title = chapter.xpath("..//text()").extract()
            if title is None:
                self.log("None!")
                continue
            # 获取到的文本中有"\n  "以及"     "一类
            # 所以要先strip()，再 if t != ""
            for i in

最低0.47元/天解锁文章

qq_45470310

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬取漫客栈漫画实战

废话不多说，直接上代码其它自己生成的文件都不用去改，只需要在spiders文件夹内新建两个.py文件就行1、cd F:\编程\Python\ScrapyScrapy startproject mkz2、# in spiders\chapters.pyimport scrapyclass ChapterSpider(scrapy.Spider): name = "chapter" start_urls = ["https://www.mkzhan.com/211692/"
复制链接

扫一扫

专栏目录