python写一个爬虫、爬取网站漫画信息_Python之dmzj漫画搜索爬虫（三）

最新推荐文章于 2022-10-19 13:37:33 发布

weixin_39856630

最新推荐文章于 2022-10-19 13:37:33 发布

阅读量773

点赞数

文章标签： python写一个爬虫、爬取网站漫画信息

上回我们讲到了dmzj漫画搜索爬虫(二)，紧接着上一回的代码，我们继续进行深入的爬取分析，完成对于漫画的图片爬取。

图片爬取

首先，我们以第一话作为分析。如下图所示：

1240

漫画第一话

然后分析它的dom节点，看看漫画的图片具体链接。但是我们尝试右键会发现并不能定位，动漫之家禁止了右键检查功能。于是，我们只能直接按F12强行打开调试功能。随后通过DOM点击定位页面的功能，一步步查看具体的页面。

1240

第一页的图片DOM

虽然我们从图中可以看出第一页的漫画的图片的URL以及它的DOM节点名称（page_1），但是这毕竟是浏览器渲染完成之后的页面。为了验证这个DOM节点是否存在。

1240

搜索DOM

我们尝试在HMTL中搜索图片的DOM节点，但是发现并没有存在，证明了漫画的图片是靠JavaScript在渲染阶段进行动态插入进去的。得出这样的结论后，我们就需要细致分析一下页面渲染的过程。

1240

XHR异步请求

我们打开Network Tab页，然后重新刷新页面，监控整个请求流程。这时，我们假想图片的具体URL是通过Ajax异步请求的，于是打开XHR 过滤，以验证我们的猜想，然后事实证明并不是如此。

根据我以往的简单猜测，一般数据的来源方式，主要有：

异步请求数据（常常为Json数据）

加密混淆过藏在HTML文件中

其他暂时没接触过

1240

可疑的JavaScript代码

1240

可疑的eval函数

首先，我们在next_pages中看到了下页图片的URL，为了简单起见，就不验证了。有兴趣的小伙伴可以去看看，确实是下一页的图片URL。这里我们主要关注的是var arr_pages = eval(pages);，其中的pages变量让人在意。

1240

可疑的eval代码片段

在蓝色部分，我们比较在意的就是这个eval里面的东西，明显可以看出里面的内容是经过混淆过的。我们通过代码整理，并稍作更改，让eval的结果可以呈现出来。

1240

更改和整理后的代码

1240

放到Console中的运行结果

然后我们就可以清晰的看到了pages变量的具体数据内容。可能数据还不太清楚，我们将第一条提取出来，和DOM节点中的数据进行对比。

1240

结果对比

发现其中的数据一模一样，pages中只是少了标准的HTTP前缀而已。因此，我们的目标很明显了，就是获取其中的pages变量。那么如何获取呢，这就要靠Python中的execjs库了（可能还有其他方式，但是为了简便，就直接采用这个库）。

execjs采用pip install pyexecjs安装。

为了减少请求，我们使用上一节的json结果文件来进行最后一步的请求。

代码

# -*- coding: utf-8 -*-

import requests

import json

from lxml import etree

import execjs

import os

import click

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',

'Referer': 'http://www.dmzj.com/category'

}

PREIX = 'http://images.dmzj.com/'

def get_request(info):

response = requests.get(info['href'], headers=headers)

try:

html = etree.HTML(response.content)

script_content = html.xpath('//script[1]/text()')[0]

"""

var arr_img = new Array();

var page = '';

eval(function(p,a,c,k,e,d){e=function(c){return(c

c=c%a)>35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--){d[e(

c)]=k[c]||e(c)}k=[function(e){return d[e]}];e=function(){return'\\w+'};c=1};while(c--){if(k[c]){

p=p.replace(new RegExp('\\b'+e(c)+'\\b','g'),k[c])}}return p}('D j=j=\'[

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/A.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/v.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/y.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/z-w%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/C-B%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/u-s%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/n-m.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/l-o%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/p-r%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/q-t%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/x-N%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/R-Q%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/P-S%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/T-V.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/U-W%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/E-O%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/H-G%f%i%h%3%2%g%0.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/f.7",

"d\\/%1%0%0%4%8%c%2%0%9%1%6%b\\/%1%0%5%a%3%e\\/%2%F%I%4%k%k%2%J%M%2%L%K.7"]\';',59,59,

'AC|E7|E6|AF|E4|AC01|9A|jpg|B8|A1|E8|84Gal|80||9D_1464276271|20|9C|89|E5|pages|BA|008_p|009|007_p

|010|009_p|010_p|011|008|012|006_p|002|006|011_p|003|004_p|001|007|005_p|var|016_p|8B|019|017_p

|9B|B5|A5|8A|B7|013|018|013_p|014|012_p|015|014_p|015_p|016|017'.split('|'),0,{}));

var g_comic_name = "第一次的Gal";

var g_chapter_name = "第01话";

var g_comic_url = "diyicidegal/";

var g_chapter_url = "diyicidegal/50354.shtml";

var g_current_page = 1;

var g_max_pic_count = 19;

var g_page_base = '';

var g_comic_id = res_id = '34569';

var g_chapter_id = chapter_id = '50354';

var g_comic_code = '260adb4c8ccaead8ea13b5b1bd42528e';

var arr_pages = eval(pages);

var next_chapter_pages = '[

"d\/%E7%AC%AC%E4%B8%80%E6%AC%A1%E7%9A%84Gal\/02\/000_p-cover%20%E6%8B%B7%E8%B4%9D.jpg",

"d\/%E7%AC%AC%E4%B8%80%E6%AC%A1%E7%9A%84Gal\/02\/001_p-021%20%E6%8B%B7%E8%B4%9D.jpg",

"d\/%E7%AC%AC%E4%B8%80%E6%AC%A1%E7%9A%84Gal\/02\/002_p-022%20%E6%8B%B7%E8%B4%9D.jpg"]';

var arr_nextchapter_pages = eval(next_chapter_pages);

var final_page_url = "/diyicidegal/jump.shtml?34569_50354&1214de4da966d26d67e262af0414ead6";

var sns_sys_id = '34569_50354';

var sns_view_point_token = '1214de4da966d26d67e262af0414ead6';

var is_hot_comic = false;

var is_fast_comic = true;

var server_name = 0;

var page_site_root = '/';

var res_type = 1;

"""

vars = script_content.strip().split('\n')

parse_str = vars[2].strip() # 取到eval()

parse_str = parse_str.replace('function(p,a,c,k,e,d)', 'function fun(p, a, c, k, e, d)')

parse_str = parse_str.replace('eval(', '')[:-1] # 去除eval

fun = """

function run(){

var result = %s;

return result;

}

""" % parse_str # 构造函数调用产生pages变量结果

pages = execjs.compile(fun).call('run')

datas = pages.split('=')[2][1:-2] # json数据块

url_list = json.JSONDecoder().decode(datas) # 解码json数据

headers['Referer'] = info['href']

if not os.path.exists('./downloads'):

os.mkdir('./downloads')

for index, url in enumerate(url_list):

img = requests.get(PREIX + url, headers=headers)

import time

time.sleep(1) # 等待一些时间，防止请求过快

click.echo(PREIX + url)

with open('./downloads/%s.jpg' % index, mode='wb') as fp:

fp.write(img.content)

click.echo('save %s.jpg' % index)

click.echo('complete!')

except Exception as e:

raise e

if __name__ == '__main__':

info = None

f = open('./details.json', mode='r', encoding='utf-8')

info = json.load(f)

# 以第一页请求为例子

get_request(info['data'][0])

好了！这一期就完了，下一期可能写点其他的东西了！！欢迎大家来阅读，哈哈~~

最后奉上自己差劲的Github以及个人的hexo网站Kyoto Animation，欢迎大家交流，这一期的所有代码都在文中，就不上传了。

weixin_39856630

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python写一个爬虫、爬取网站漫画信息_Python之dmzj漫画搜索爬虫（三）

上回我们讲到了dmzj漫画搜索爬虫(二)，紧接着上一回的代码，我们继续进行深入的爬取分析，完成对于漫画的图片爬取。图片爬取首先，我们以第一话作为分析。如下图所示：漫画第一话然后分析它的dom节点，看看漫画的图片具体链接。但是我们尝试右键会发现并不能定位，动漫之家禁止了右键检查功能。于是，我们只能直接按F12强行打开调试功能。随后通过DOM点击定位页面的功能，一步步查看具体的页面。第一页的图片DOM...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。