下载漫画的代码,这个网站本身就是盗版的,也没有什么反爬,就是在下载图片的时候,在请求头里面有个referer需要注意下,需要带上是第几页,其他的就是正常下载了。
下载思路是在目录页里面获取所有章节的url,然后遍历了下所有url,在下载过程中加了一个多线程
下载每个章节下的图片。
import requests, os, re, threading
class YiRenZhiXia():
def __init__(self):
self.headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Referer': 'https://www.lbsulu.com/mh/yirenzhixia/160246.html',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Mobile Safari/537.36',
}
self.comic_chapter_list_url = 'https://m.bnmanhua.com/comic/15.html' # 这是目录url
self.chapter_prefix = 'https://m.bnmanhua.com' # 章节url的前缀,目录页获取的章节url没有前缀
self.img_prefix = 'https://img.yaoyaoliao.com/' # 图片url的前缀,章节里面获取的图片url也没有前缀
def get_chapter_url(self):