
我前两天无聊,鬼灭之刃第一季完结了,我暂时没啥动漫看,就想着看看鬼灭之刃的漫画,找了半天,找一个叫漫画堆的网站
鬼灭之刃www.manhuadui.com
网页版的还可以,但是我当时拿手机在看,翻一个页就是一个性感XX,在线发牌在下面晃。
晃的爷好烦a!
然后我就想着干脆爬取整个鬼灭之刃,自己慢慢看,省着看广告
虽然不难,但是这整个过程也没那么简单。
因为涉及到一点点字符串解密。
而且也比较闲,弄点技术相关的东西也总比发呆好
我把这个程序归到动态爬虫里,但是好像又不算动态爬虫,有点特殊。
BB is cheap,show me your code
代码如下:
#开始时间:2019年10月22日 16:07:40
#结束时间:2019年10月28日 08:47:33
#作者:DMaple
#功能:爬取漫画堆漫画-鬼灭之刃
#版本1.0
#
'''
前提条件:需要在文件工程下添加那个下面的js文件。
断断续续写了一周,
涉及功能:
request 获取网页代码
json & execjs python调用js代码
os 文件的读写
re 正则表达式的应用
'''
import requests
import json
import time
import os
import re
import execjs
host='https://mhcdn.manhuazj.com/'
l_url = "https://www.manhuadui.com"
url = "https://www.manhuadui.com/manhua/guimiezhiren/"
headers = {
# 模拟浏览器访问网页
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}
response = requests.get(url=url, headers=headers)
def main():
#获取章节地址
list_source = dir()
get_chapters(list_source)
'''
功能:查找所有章节网址
返回值:字符串:包含每个章节的url以及章节名称
'''
def dir():
#正则,匹配章节url以及章节名称
pattern = re.compile('href="/manhua/.+.html.+title=.+"')
print("dir 正则过滤-----------------------------")
print("正在查找该漫画所有章节的url以及名称")
list_source=pattern.findall(response.text)
#print(list_source)
return list_source
'