使用python下载网站漫画

最新推荐文章于 2025-02-17 09:49:34 发布

ThinkInFuture

最新推荐文章于 2025-02-17 09:49:34 发布

阅读量3.2k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_39020940/article/details/81153661

版权

Python 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种利用Python从特定网站抓取漫画资源的方法。通过对网站源代码的分析，作者解析出了漫画图片的真实地址，并使用Python实现了自动化的下载过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近想回顾一下七龙珠，结果发现腾讯已经收费，而且是按节收费，无奈看看其他网站，找到了一个网站，可以在线看，但是无法下载，最后决定使用python下载下来

首先要分析网站源码，查看源代码

1~42部的URL是从

http://comic.kukudm.com/comiclist/141/1343/到

http://comic.kukudm.com/comiclist/141/1384/

而每一页的URL是从1.htm到xx.htm

得到每部的网址后，下一步就是看图片的URL

rsp = req.get(url, timeout = 2)   

rsp.encoding = 'utf-8'

print rsp.text

打印出来的漫画图片源码如下：

document.write("<img id=comicpic name=comicpic src='"+server+"kuku3comic3/qlz/vol01/001DM01W3.jpg'>");

可以看出网站源码并不直接图片的源地址，而是需要通过浏览器编译运行才能图片的真实地址，通过F12调试浏览器，得出源地址如下：

多找几个，可以得出漫画的真实网址是http://n5.1whour.com/加对应网页源码的后缀拼接出来的，代码可以这么写

image_pre_url = "http://n5.1whour.com/"



# url http://comic2.kukudm.com/comiclist/141/1343/1.htm

# filename 001.jpg

@retry(stop_max_attempt_number=3, stop_max_delay=10000)

def downloadImg(url, filename):

    print url

    rsp = req.get(url, timeout = 2)   

    rsp.encoding = 'utf-8'

    image_posturl = re.findall("kuku3comic3.*.jpg", rsp.text)

    image_url = image_pre_url + str(image_posturl[0])

这里面的retry是引用了python的retrying模块，可以通过注释的模式设置函数内部重试，还可以设置最大时长

找到了章节网址和每个图片的网址，剩下就是下载了，代码如下

    r = req.get(image_url, stream=True, timeout = 2)

    with open(filename, 'wb') as f:

        for chunk in r.iter_content(chunk_size=1024):

            if chunk:

                f.write(chunk)

                f.flush()

        f.close()

        print 'download finished',image_url

至此，就可以完成漫画下载