爬虫(三)下载漫画

本文介绍了如何下载漫画,详细讲解了相关网址和所需的库如requests、beautifulsoup、tqdm。还讨论了如何应对动态加载和通过Referer进行反扒的反爬虫策略。
摘要由CSDN通过智能技术生成

1.相关网址和库

参考文章:漫画下载,动态加载、反爬虫这都不叫事!
网址

https://www.dmzj.com/

在这里插入图片描述
需要用到的库
requests、beautifulsoup、tqdm

2.代码实现

import requests
import re
from bs4 import BeautifulSoup
from contextlib import closing
from tqdm import tqdm
import os
import time


class MangaSpider(object):
    def __init__(self):
        self.save_dir = '妖神记'
        if not os.path.exists(self.save_dir):
            os.mkdir(self.save_dir)

        self.target_url = 'https://www.dmzj.com/info/yaoshenji.html'

        self.chapter_list = []

    # 1.发送请求
    def send_request(self, url):
        response = requests.get(url)
        data = response.content.decode('utf-8')

        return data

    # 2.解析数据
    def parse_list_data(self, data):
        bs = BeautifulSoup(data
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值