qiman6漫画爬虫脚本
本次的python爬虫脚本有以下两个重点
1 . 利用requests库的post命令获取漫画每一章节的id, 然后组成对应的漫画每一章的地址
$.ajax({
type: "POST",
url: "/bookchapter/",
data: { "id": 13079, "id2": 1},
dataType: 'json',
根据上述漫画目录网址的源码得知,需要发送post命令获取章节的id,post命令的data是{ "id": 13079, "id2": 1},url是‘http://m.qiman6.com/bookchapter/’。
Posturl = 'http://m.qiman6.com/bookchapter/'
PostData = {'id': '13079', 'id2': '1'}
postreq = requests.post(Posturl, PostData) # 发送post请求,第一个参数是URL,第二个参数是请求数据
for it in postreq.json():
ChappterUrl.append(url + it['id'] + '.html')
2 .利用js2py库模拟javascript脚本的执行,获取每一章漫画的按顺序排列的漫画地址
首先利用正则表达式找到要传入的6个参数和javascript的函数,然后直接利用js2py库调用该函数就可以得到按顺序排列的漫画图片地址