js rsa解密中文乱码_python解析JS爬取漫画网站--动态爬虫

本文讲述了作者如何使用动态爬虫爬取漫画堆网站上的鬼灭之刃漫画,过程中涉及JS RSA解密中文乱码问题。通过分析网页源码和JS文件,找到图片URL的加密与解密方式,最终成功获取漫画图片。重点在于理解解密过程和动态加载的内容获取。
摘要由CSDN通过智能技术生成

48ae6cea8a72797232c447ece2021996.png

我前两天无聊,鬼灭之刃第一季完结了,我暂时没啥动漫看,就想着看看鬼灭之刃的漫画,找了半天,找一个叫漫画堆的网站

鬼灭之刃​www.manhuadui.com
adca1d3a7909ba98d359607c393aa055.png

网页版的还可以,但是我当时拿手机在看,翻一个页就是一个性感XX,在线发牌在下面晃。

晃的爷好烦a!

然后我就想着干脆爬取整个鬼灭之刃,自己慢慢看,省着看广告

虽然不难,但是这整个过程也没那么简单。

因为涉及到一点点字符串解密。

而且也比较闲,弄点技术相关的东西也总比发呆好

我把这个程序归到动态爬虫里,但是好像又不算动态爬虫,有点特殊。

BB is cheap,show me your code

代码如下:

#开始时间:2019年10月22日 16:07:40
#结束时间:2019年10月28日 08:47:33
#作者:DMaple
#功能:爬取漫画堆漫画-鬼灭之刃
#版本1.0
#
'''
前提条件:需要在文件工程下添加那个下面的js文件。

断断续续写了一周,
涉及功能:
request 获取网页代码
json & execjs   python调用js代码
os 文件的读写
re 正则表达式的应用

'''

import requests
import json
import time
import os
import re
import execjs


host='https://mhcdn.manhuazj.com/'
l_url = "https://www.manhuadui.com"
url = "https://www.manhuadui.com/manhua/guimiezhiren/"
headers = {
      # 模拟浏览器访问网页
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
response = requests.get(url=url, headers=headers)

def main():
    #获取章节地址
    list_source = dir()
    get_chapters(list_source)


'''
功能:查找所有章节网址
返回值:字符串:包含每个章节的url以及章节名称
'''
def dir():
    #正则,匹配章节url以及章节名称
    pattern = re.compile('href="/manhua/.+.html.+title=.+"')
    print("dir 正则过滤-----------------------------")
    print("正在查找该漫画所有章节的url以及名称")
    list_source=pattern.findall(response.text)
    #print(list_source)
    return list_source


'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值