爬虫（三）下载漫画

最新推荐文章于 2024-02-19 16:39:03 发布

Ronnyz

最新推荐文章于 2024-02-19 16:39:03 发布

阅读量4.5k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/Ronnyz/article/details/107029635

版权

本文介绍了如何下载漫画，详细讲解了相关网址和所需的库如requests、beautifulsoup、tqdm。还讨论了如何应对动态加载和通过Referer进行反扒的反爬虫策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.相关网址和库

参考文章：漫画下载，动态加载、反爬虫这都不叫事！
网址

https://www.dmzj.com/

在这里插入图片描述
需要用到的库
requests、beautifulsoup、tqdm

2.代码实现

import requests
import re
from bs4 import BeautifulSoup
from contextlib import closing
from tqdm import tqdm
import os
import time


class MangaSpider(object):
    def __init__(self):
        self.save_dir = '妖神记'
        if not os.path.exists(self.save_dir):
            os.mkdir(self.save_dir)

        self.target_url = 'https://www.dmzj.com/info/yaoshenji.html'

        self.chapter_list = []

    # 1.发送请求
    def send_request(self, url):
        response = requests.get(url)
        data = response.content.decode('utf-8')

        return data

    # 2.解析数据
    def parse_list_data(self, data):
        bs = BeautifulSoup(data