首先获取所有免费漫画的信息
进入开发者模式,由于漫画是采取异步访问的方式,我们直接点击XHR,查看里面的list,可以获得所有漫画的信息
我们尝试在网页访问里面的Headers里面的URL,
得到
显然,网页采取了反爬虫机制,这边我们要设置代理,伪装成浏览器去访问,这边要添加一些头部信息
代码如下:
headers = {
"Request Method": "POST",
"Cookie": "U17SID=pfp8vufd21t6vd87hppch4f3p9c19ku3; index_mobile_do_ad=1; Hm_lvt_9aa72b7e4e92f182872acd1c8031f141=1538056312; UM_distinctid=1661b4cdea43aa-0b0eb36b6ca7fb-3a614f0b-100200-1661b4cdea510; CNZZDATA30088157=cnzz_eid%3D421910364-1538051250-null%26ntime%3D1538051250; Hm_lpvt_9aa72b7e4e92f182872acd1c8031f141=1538056358; _cnzz_CV30031742=%E7%94%A8%E6%88%B7%E7%B1%BB%E5%9E%8B%7C%E6%B8%B8%E5%AE%A2%7C1538056379431; CNZZDATA30031742=cnzz_eid%3D937536403-1538052583-http%253A%252F%252Fwww.u17.com%252F%26ntime%3D1538052583",
}
for j in range(1, 406):
data = {
"data[is_vip]": "no",
"data[theme_id]": "no",
"data[page_num]": j,
"data[group_id]": "no",
"data[accredit]": "no",
"data[read_mode]": "no",
}
url = "http://www.u17.com/comic/ajax.php?mod=comic_list&act=comic_list_new_fun&a=get_comic_list"
response = requests.post(url, headers=headers, data=data)
content = json.loads(response.text)
接着获取所有章节/图片的资源
这边我绕了点弯路,点了一本漫画进去找了半天没找到,是要再加点进去看漫画的时候才会同时给出章节信息和图片信息
在浏览器中可直接访问可以直接爬取,下面附上我的代码
https://download.csdn.net/download/weixin_42478037/10950188